自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 一个挺好的python中文分词库jieba

import jiebaa='我们中出了一个叛徒'a=str(list(jieba.cut(str(a))))print(a)['我们', '中出', '了', '一个', '叛徒']默认的效果就不错,还可以自定义字典,官方文档:http://www.oschina.net/p/jieba?fromerr=haNJ6oh4

2017-07-17 17:17:04 4690 2

原创 一个python替换字符串的函数

def replace_words(text, word_dic):       yo = re.compile('|'.join(map(re.escape, word_dic)))       def translate(mat):           return word_dic[mat.group(0)]       return yo.sub(translate, te

2017-06-02 13:07:18 741

原创 sklean中kmeans初始聚类点的选择

sklean的默认参数一般效果已经不错了,不过今天碰到一个案例需要手动调一下初始聚类点的情况。#overduetimes_predicted=KMeans(n_clusters=3).fit(X).predict(X) #不选择初始聚类点的情况overduetimes_predicted=KMeans(n_clusters=3,n_init=1,init=np.array([[

2017-03-09 10:27:01 3829

转载 关于K-means聚类分析的结果评价 Davies Bouldin值(DBI)

原文在此:http://blog.sina.com.cn/s/blog_65c8baf901016flh.html用rapid miner的话,按如下设计,DBI值越小越好(说明分散程度低):

2017-03-03 16:43:18 14428

原创 pandas中groupby和pivot_table(数据透视表)

pivot_table(数据透视表)可以看做是一种高级的groupby功能,下面贴两段代码比较一下:df=pd.read_csv('2016_sale.csv')a=pd.pivot_table(df,index=['Category','Buyer','Product'],values=['Qty','Amount'],aggfunc={'Qty':(np.sum),'Amount'

2016-12-16 15:31:33 6144

原创 pandas 读取mysql数据的简单方法

#!/usr/bin/python  # -*- coding: UTF-8 -*-  import pandas as pdimport numpy as npimport mysql.connectorcnx = mysql.connector.connect(user='xxxx', password='xxxxx',                 

2016-12-15 17:44:32 2915

原创 使用etl工具kettle比较数据文件是否有变更

原先是用python来实现的,参照例子:http://pbpython.com/excel-diff-pandas.html,现在考虑用elt工具kettle来实现类似的功能。对原有的例子稍加改造,删除两行记录,并添加新的两行记录,使用转换中的“合并记录”功能,比较有可能会发生变化的字段,如果不知道就全选,标志字段是合并后新增的字段,用来标注某条记录是否有变化,没有变化是“identical‘

2016-11-02 11:06:10 1313

原创 关于Kettle的增量更新

研究了一下文件和数据库的增量更新,操作稍有不同。1.EXCEL文件更新:(1)输入EXCEL(最新内容的)文件;(2)选择转换里的“过滤记录”,条件选择比较字段A(一般是日期、时间这种)发送false输出到表;(3)输出需要被更新的EXCEL表。2.数据库表的更新:(1)输入最新数据的表;(2)选择转换里的“更新”,注意这里要把lookup查询表改成你需

2016-10-25 10:56:05 1941

原创 SSH通道的Kettle链接MySQL方法

参考文献:http://www.ukettle.org/thread-452-1-1.html对于采用SSH通道的MySQL服务器,Kettle无法直接连接,需要使用到使用SSH工具:PUTTY。主要是需要用putty这个工具新建一个端口 既连接上了SSH通道,同时又配置了所需连接的数据库的端口及IP信息。下载地址:http://www.chiark.greenend.org.uk/~sg

2016-09-29 14:16:38 7991 5

原创 基于NAR神经网络的化工产品价格预测的实现(Matlab)

clear allclc %清除环境xlsread('styrene.xls') %读取苯乙烯价格序列ans=...(系统会显示具体值)styrene=ans' %变换为行向量 lag=3;    % 自回归阶数iinput=styrene;n=length(iinput);%准备输入和输出数据inputs=zeros(lag,n-lag);fo

2016-08-22 14:58:08 5756 7

原创 基于Hadoop的Kylin测试环境搭建

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区,它能在亚秒内查询巨大的Hive表。本文旨在单机上搭建一个测试环境。1.部署环境:根据官方文档,Kylin系统要求:Hadoop: 2.4+,Hive: 0.13+,HBase: 0.98+, 1.x,JDK:

2016-08-02 19:41:58 2384 2

转载 Python SyntaxError: Non-ASCII character '\xe5'编码错误

在编写Python时,当使用中文输出或注释时运行脚本,会提示错误信息:SyntaxError: Non-ASCII character '\xe5' in file *******解决方法:python的默认编码文件是用的ASCII码,你将文件存成了UTF-8!!!(文件中存在中文或者其他语言,就会出现此问题!)解决办法很简单!!!在文件开头加入:# -*- cod

2016-07-27 20:50:04 477

原创 利用Python进行数据分析环境部署

系统环境:WIN7 64位+i54460+8G,micosoft visual studio 2010(不要装更高的版本,不然matlab R2011a用不了了:) )1.安装python27:python-2.7.12.amd64,目录d:\Python27(所有都勾上,尤其是pip,安装插件包要用)2.安装epd free(集成了numpy,scipy,matplotlib,ipyth

2016-07-20 17:54:04 1214

原创 Python_Statsmodels包_时间序列分析_ARIMA模型

基础库: pandas,numpy,scipy,matplotlib,statsmodels :from __future__ import print_functionimport pandas as pdimport numpy as npfrom scipy import  statsimport matplotlib.pyplot as pltimport stat

2016-07-20 10:07:24 96522 84

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除