自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (6)
  • 收藏
  • 关注

原创 [bigdata-040] cloudera manager web服务故障处理

1. cloudera manager的web服务挂了2. 根据文档进行重启https://www.cloudera.com/documentation/enterprise/5-4-x/topics/cm_ag_server.htmlsudo service cloudera-scm-server start无效,在10.14.x.x:7180上没有服务lsof

2017-01-28 13:27:12 2666

原创 [bigdata-039] pysql+pymongo+py3把数据从sql 导入 到mongo的通用代码

#!/usr/bin/env python3#! coding:utf-8 -*-import pymysqlimport pymongodef trans_data_from_mysql_to_mongo(source_param, target_param, trans_type, where_clause, ignore_columns=[]): # 创建mysql连接

2017-01-25 15:44:21 481

原创 [bigdata-038] tushare 金融数据 安装使用

1. 安装pip install tushare2. 获取股票的基本面#!/usr/bin/env python3#!-*- coding:utf-8 -*-import tushare as ts#显示基本信息res = ts.get_stock_basics()print(res)print(type(res))res是的类型是pandas.core

2017-01-24 22:31:27 782

原创 [bigdata-037]apache hue 用SQL获取数据以及可视化

1. hue官网2. hue的功能有py2+django开发,提供Hive, Impala, MySQL, Oracle, PostgreSQL, Spark SQL, Solr SQL, Phoenix...等SQL数据获取和页面展示3. 用docker 安装huedocker pull gethue/hue4. hue image的使用方式htt

2017-01-24 17:15:16 1065

原创 [bigdata-036] mit-scheme试用

1. 安装Mit-schemeapt-get install mit-scheme2. 写一个hello wold代码, hi.scm(begin (display "Hello, World!") (newline))3. 在命令行执行 scheme,进入交互界面,然后输入命令(load 'hi.scm')将执行这个文件,然后输出 "Hello,

2017-01-24 13:53:45 562

原创 [bigdata-035]用js dtree展示一个树形结构 py3+dtree+jquery

1. dtree的下载http://destroydrop.com/javascripts/tree/default.htm2.

2017-01-23 17:00:11 413

原创 [bigdata-34] pyenv和anaconda 4.2 和 python3.5和 ubuntu 16.04 安装

1. pyenv 官网https://github.com/yyuu/pyenv2. 安装

2017-01-22 21:32:03 986

原创 [bigdata-033] 互联网金融-大数据架构平台和业务流程

一张图,excited!

2017-01-21 00:35:03 495

原创 [bigdata-032] 把json文件导入到mongodb

用mongoimport命令mongoimport -d db1 -c colle1 --type json --file cc.json --host 114.55.66.77 --upsert -u user1 -p passwd1这个命令,如果同id的记录在,就更新,如果记录id不重复,就插入。因为upsert,所以会比较慢。mongoimport -d db1 -c colle

2017-01-19 16:15:13 601

原创 [bigdata-031] python3+selenium 做抓取

1. 安装1.1 pip3 install -U selenium1.2 下载 https://github.com/mozilla/geckodriver/releases/download/v0.13.0/geckodriver-v0.13.0-linux64.tar.gz  解压缩,然后放到/usr/bin目录2. 抓取豆瓣#!/usr/bin/env python3#

2017-01-15 22:34:06 413

原创 [bigdata-030] cdh 5.9的impyla操作hiveserver2

1. cdh 5.92. 开发机已经安装了impyla3. 在cdh集群的一个节点启动hiveserver23.1 修改/etc/hive/conf.cloudera.hive/hive-site.xml增加属性  hive.server2.authentication  NONE将属性hive.server2.enable.doAs设置为f

2017-01-12 19:00:05 487

原创 [bigdata-029] 在centos 7上安装maria

centos 7以上版本支持mysql的另一个分支maria安装方式如下正确安装mariadbhttp://blog.csdn.net/default7/article/details/39138139http://blog.csdn.net/default7/article/details/41973887yum install mariadb*s

2017-01-12 15:29:23 509

原创 [bigdata-028]apache nifi 从mysql导出数据到hbase

0.在hbase节点,启动thrift服务hbase-daemon.sh start thrift1. 在本机启动nif./bin/nifi.sh start2. 在浏览器输入http://localhost:8080/nifi,看到nifi的界面3. 拖一个processor ExecuteSQL到界面    3.1 在processor上点击右键,选择con

2017-01-12 11:32:53 5022 7

原创 [bigdata-027] 最好用的 python+mysql的包:pymysql

pip3 install pymysqlimport pymysql

2017-01-11 22:15:23 1151

原创 [bigdata-026] 大数据principle No.1~No.4

这个原则是极其重要。1. 大数据eco,唯一的优点是处理海量数据,但是工具一般都不完善,藏着各种坑。不像传统数据库和传统功能,完备精致。2. 最佳的使用方式就是:数据是干净清洁完美的,用大数据工具处理,性能很爽。3. 但是,如果你试图用大数据eco做数据清洗,烦死你!4. 所以,数据务必清洗好了再进入大数据存储,然后再去做计算。

2017-01-09 20:11:34 332

原创 [bigdata-025] ubuntu 14.04 下用virtualbox安装ghost xp

市面上的各种ghost的iso很多。这里只说关键点1.  用xp ghost镜像启动,选择dos2. 在dos执行 pq,进行分区    2.1 首先,选择建立一个“主要分割磁区”,这一点千万不要错,设置为C盘。文件格式根据xp ghost 指定的格式来,现在一般是ntfs。大概,4g就行了。    2.2 然后,再建立一个扩展分区,在扩展分区上建立D盘,这个无所谓。

2017-01-08 10:53:36 466

原创 [bigdata-024] 在centos 6.5上手工安装mongodb 3.2.5

1. 操作系统 centos 6.52. 删除旧版本kill xxxxyum erase mongodb.x86_64rm /etc/mongod.confrm /init/mongo*rm /init.d/mongo*locate mongo删除全部mongo的相关文件updatedb -U / 3. 下载mongohttp

2017-01-07 16:15:36 361

原创 [bigdata-023] pymongo 3.4和mongodb 2.x的安全机制导致的用户认证问题

#!/usr/bin/env python3#! coding:utf-8 -*-import pymongoimport time"""python3.4.0 + mongo 2.4.14"""client = pymongo.MongoClient('114.55.239.66')client.tzdb1.authenticate("tzuser1", "user1688

2017-01-06 17:09:11 574

原创 [bigdata-022] hive和impala的对hbase的精细order by操作

1. 要用hive给hbase的表创建一个外部表。不能用impala,因为它在这块有缺陷。2. 在hive创建一个本地表,注意,一定不要创建在hbase上。3. 在hive里,执行order by命令,对外部表进行排序,然后将排序结果写入到2创建的hive本地表。这时候,因为order by是在一个reducer里进行的,所以结果一定是有序的。但如果写入到在hive里创建的hbase表

2017-01-05 20:15:08 1036

原创 [bigdata-021]python3转换json数据的单引号双引号注意点

在py3里,一个json是一个字典,形如 {"a":15}那么,如果你要将它转换成字符串,也许你用的是str({"a":15}),这样转出来的,可能是是s= "{'a':'15'}",也就是说,里面的kv是单引号的。这个字符串,传到其他地方,再用json.loads(s)的时候会出错,json不支持单引号。所以,假如你想把一个json结构,转成字符串,传递给远处,然后再重新解析成j

2017-01-04 20:10:52 8010 1

原创 [bigdata-020]用python3+pymogo 操作 mongodb数据库

1. 安装pymongopip install pymongo2. 写一个例子#!/usr/bin/env python3#! coding:utf-8 -*-import pymongoimport timeclient = pymongo.MongoClient('localhost', 27017)db = client.get_database('use

2017-01-03 17:46:12 1338

原创 [bigdata-019] 禅道在linux上的安装

1. 在ubuntu 14.04上安装部署禅道   2. 禅道有多种安装方式。有一键安装包。但如果你已经有了一个mysql数据库,就不能使用一键安装了。本文主要说明在已有mysql数据库下的安装。3. 官方参考http://www.zentao.net/book/zentaopmshelp/239.html4. 下载,把xampp-linux-x64-1.8

2017-01-01 22:37:55 346

原创 [bigdata-018] java spring 快捷入门

1. spring学习,最好的材料是官网 http://sping.io/docs2.安装jdk3. 安装tomcathttp://blog.csdn.net/zhuying_linux/article/details/6583096/tomcat 8.5对应的jdk 1.7把tomcat压缩包放到~/usr/tomcat里在/etc/profile加上

2017-01-01 18:21:47 306

评分卡模型理论推导-草稿

评分卡模型理论推导,草稿版。

2018-12-20

史上最直白的lda教程

史上最直白的lda教程的pdf文档,0积分下载。求rp。

2015-12-16

史上最直白的pca教程

史上最直白的pca教程,整理文档,一个完整的pdf文件。

2015-11-27

史上最直白的logistic regression教程整理稿

史上最直白的logistic regression教程整理稿。讲4篇博文整理成一个完整的pdf文档。且修改成学术语境。

2015-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除