2017年01月_未济2019

12月 11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创 [bigdata-040] cloudera manager web服务故障处理

1. cloudera manager的web服务挂了2. 根据文档进行重启https://www.cloudera.com/documentation/enterprise/5-4-x/topics/cm_ag_server.htmlsudo service cloudera-scm-server start无效，在10.14.x.x:7180上没有服务lsof

2017-01-28 13:27:12 2666

原创 [bigdata-039] pysql+pymongo+py3把数据从sql 导入到mongo的通用代码

#!/usr/bin/env python3#! coding:utf-8 -*-import pymysqlimport pymongodef trans_data_from_mysql_to_mongo(source_param, target_param, trans_type, where_clause, ignore_columns=[]): # 创建mysql连接

2017-01-25 15:44:21 481

原创 [bigdata-038] tushare 金融数据安装使用

1. 安装pip install tushare2. 获取股票的基本面#!/usr/bin/env python3#!-*- coding:utf-8 -*-import tushare as ts#显示基本信息res = ts.get_stock_basics()print(res)print(type(res))res是的类型是pandas.core

2017-01-24 22:31:27 782

原创 [bigdata-037]apache hue 用SQL获取数据以及可视化

1. hue官网2. hue的功能有py2+django开发，提供Hive, Impala, MySQL, Oracle, PostgreSQL, Spark SQL, Solr SQL, Phoenix...等SQL数据获取和页面展示3. 用docker 安装huedocker pull gethue/hue4. hue image的使用方式htt

2017-01-24 17:15:16 1065

原创 [bigdata-036] mit-scheme试用

1. 安装Mit-schemeapt-get install mit-scheme2. 写一个hello wold代码， hi.scm(begin (display "Hello, World!") (newline))3. 在命令行执行 scheme，进入交互界面，然后输入命令(load 'hi.scm')将执行这个文件，然后输出 "Hello,

2017-01-24 13:53:45 562

原创 [bigdata-035]用js dtree展示一个树形结构 py3+dtree+jquery

1. dtree的下载http://destroydrop.com/javascripts/tree/default.htm2.

2017-01-23 17:00:11 413

原创 [bigdata-34] pyenv和anaconda 4.2 和 python3.5和 ubuntu 16.04 安装

1. pyenv 官网https://github.com/yyuu/pyenv2. 安装

2017-01-22 21:32:03 986

原创 [bigdata-033] 互联网金融-大数据架构平台和业务流程

一张图,excited!

2017-01-21 00:35:03 495

原创 [bigdata-032] 把json文件导入到mongodb

用mongoimport命令mongoimport -d db1 -c colle1 --type json --file cc.json --host 114.55.66.77 --upsert -u user1 -p passwd1这个命令，如果同id的记录在，就更新，如果记录id不重复，就插入。因为upsert，所以会比较慢。mongoimport -d db1 -c colle

2017-01-19 16:15:13 601

原创 [bigdata-031] python3+selenium 做抓取

1. 安装1.1 pip3 install -U selenium1.2 下载 https://github.com/mozilla/geckodriver/releases/download/v0.13.0/geckodriver-v0.13.0-linux64.tar.gz 解压缩，然后放到/usr/bin目录2. 抓取豆瓣#!/usr/bin/env python3#

2017-01-15 22:34:06 413

原创 [bigdata-030] cdh 5.9的impyla操作hiveserver2

1. cdh 5.92. 开发机已经安装了impyla3. 在cdh集群的一个节点启动hiveserver23.1 修改/etc/hive/conf.cloudera.hive/hive-site.xml增加属性 hive.server2.authentication NONE将属性hive.server2.enable.doAs设置为f

2017-01-12 19:00:05 487

原创 [bigdata-029] 在centos 7上安装maria

centos 7以上版本支持mysql的另一个分支maria安装方式如下正确安装mariadbhttp://blog.csdn.net/default7/article/details/39138139http://blog.csdn.net/default7/article/details/41973887yum install mariadb*s

2017-01-12 15:29:23 509

原创 [bigdata-028]apache nifi 从mysql导出数据到hbase

0.在hbase节点，启动thrift服务hbase-daemon.sh start thrift1. 在本机启动nif./bin/nifi.sh start2. 在浏览器输入http://localhost:8080/nifi，看到nifi的界面3. 拖一个processor ExecuteSQL到界面 3.1 在processor上点击右键，选择con

2017-01-12 11:32:53 5022 7

原创 [bigdata-027] 最好用的 python+mysql的包：pymysql

pip3 install pymysqlimport pymysql

2017-01-11 22:15:23 1151

原创 [bigdata-026] 大数据principle No.1~No.4

这个原则是极其重要。1. 大数据eco，唯一的优点是处理海量数据，但是工具一般都不完善，藏着各种坑。不像传统数据库和传统功能，完备精致。2. 最佳的使用方式就是：数据是干净清洁完美的，用大数据工具处理，性能很爽。3. 但是，如果你试图用大数据eco做数据清洗，烦死你！4. 所以，数据务必清洗好了再进入大数据存储，然后再去做计算。

2017-01-09 20:11:34 332

原创 [bigdata-025] ubuntu 14.04 下用virtualbox安装ghost xp

市面上的各种ghost的iso很多。这里只说关键点1. 用xp ghost镜像启动，选择dos2. 在dos执行 pq，进行分区 2.1 首先，选择建立一个“主要分割磁区”，这一点千万不要错，设置为C盘。文件格式根据xp ghost 指定的格式来，现在一般是ntfs。大概，4g就行了。 2.2 然后，再建立一个扩展分区，在扩展分区上建立D盘，这个无所谓。

2017-01-08 10:53:36 466

原创 [bigdata-024] 在centos 6.5上手工安装mongodb 3.2.5

1. 操作系统 centos 6.52. 删除旧版本kill xxxxyum erase mongodb.x86_64rm /etc/mongod.confrm /init/mongo*rm /init.d/mongo*locate mongo删除全部mongo的相关文件updatedb -U / 3. 下载mongohttp

2017-01-07 16:15:36 361

原创 [bigdata-023] pymongo 3.4和mongodb 2.x的安全机制导致的用户认证问题

#!/usr/bin/env python3#! coding:utf-8 -*-import pymongoimport time"""python3.4.0 + mongo 2.4.14"""client = pymongo.MongoClient('114.55.239.66')client.tzdb1.authenticate("tzuser1", "user1688

2017-01-06 17:09:11 574

原创 [bigdata-022] hive和impala的对hbase的精细order by操作

1. 要用hive给hbase的表创建一个外部表。不能用impala，因为它在这块有缺陷。2. 在hive创建一个本地表，注意，一定不要创建在hbase上。3. 在hive里，执行order by命令，对外部表进行排序，然后将排序结果写入到2创建的hive本地表。这时候，因为order by是在一个reducer里进行的，所以结果一定是有序的。但如果写入到在hive里创建的hbase表

2017-01-05 20:15:08 1036

原创 [bigdata-021]python3转换json数据的单引号双引号注意点

在py3里，一个json是一个字典，形如 {"a":15}那么，如果你要将它转换成字符串，也许你用的是str({"a":15})，这样转出来的，可能是是s= "{'a':'15'}"，也就是说，里面的kv是单引号的。这个字符串，传到其他地方，再用json.loads(s)的时候会出错，json不支持单引号。所以，假如你想把一个json结构，转成字符串，传递给远处，然后再重新解析成j

2017-01-04 20:10:52 8010 1

原创 [bigdata-020]用python3+pymogo 操作 mongodb数据库

1. 安装pymongopip install pymongo2. 写一个例子#!/usr/bin/env python3#! coding:utf-8 -*-import pymongoimport timeclient = pymongo.MongoClient('localhost', 27017)db = client.get_database('use

2017-01-03 17:46:12 1338

原创 [bigdata-019] 禅道在linux上的安装

1. 在ubuntu 14.04上安装部署禅道 2. 禅道有多种安装方式。有一键安装包。但如果你已经有了一个mysql数据库，就不能使用一键安装了。本文主要说明在已有mysql数据库下的安装。3. 官方参考http://www.zentao.net/book/zentaopmshelp/239.html4. 下载，把xampp-linux-x64-1.8

2017-01-01 22:37:55 346

原创 [bigdata-018] java spring 快捷入门

1. spring学习，最好的材料是官网 http://sping.io/docs2.安装jdk3. 安装tomcathttp://blog.csdn.net/zhuying_linux/article/details/6583096/tomcat 8.5对应的jdk 1.7把tomcat压缩包放到~/usr/tomcat里在/etc/profile加上

2017-01-01 18:21:47 306

评分卡模型理论推导-草稿

评分卡模型理论推导，草稿版。

2018-12-20

史上最直白的lda教程

史上最直白的lda教程的pdf文档，0积分下载。求rp。

2015-12-16

史上最直白的pca教程

史上最直白的pca教程，整理文档，一个完整的pdf文件。

2015-11-27

史上最直白的logistic regression教程整理稿

史上最直白的logistic regression教程整理稿。讲4篇博文整理成一个完整的pdf文档。且修改成学术语境。

2015-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人