hal_sakai-CSDN博客

原创一个挺好的python中文分词库jieba

import jiebaa='我们中出了一个叛徒'a=str(list(jieba.cut(str(a))))print(a)['我们', '中出', '了', '一个', '叛徒']默认的效果就不错，还可以自定义字典，官方文档：http://www.oschina.net/p/jieba?fromerr=haNJ6oh4

2017-07-17 17:17:04 4690 2

原创一个python替换字符串的函数

def replace_words(text, word_dic): yo = re.compile('|'.join(map(re.escape, word_dic))) def translate(mat): return word_dic[mat.group(0)] return yo.sub(translate, te

2017-06-02 13:07:18 741

原创 sklean中kmeans初始聚类点的选择

sklean的默认参数一般效果已经不错了，不过今天碰到一个案例需要手动调一下初始聚类点的情况。#overduetimes_predicted=KMeans(n_clusters=3).fit(X).predict(X) #不选择初始聚类点的情况overduetimes_predicted=KMeans(n_clusters=3,n_init=1,init=np.array([[

2017-03-09 10:27:01 3829

转载关于K-means聚类分析的结果评价 Davies Bouldin值（DBI）

原文在此：http://blog.sina.com.cn/s/blog_65c8baf901016flh.html用rapid miner的话，按如下设计，DBI值越小越好（说明分散程度低）：

2017-03-03 16:43:18 14428

原创 pandas中groupby和pivot_table（数据透视表）

pivot_table（数据透视表）可以看做是一种高级的groupby功能，下面贴两段代码比较一下：df=pd.read_csv('2016_sale.csv')a=pd.pivot_table(df,index=['Category','Buyer','Product'],values=['Qty','Amount'],aggfunc={'Qty':(np.sum),'Amount'

2016-12-16 15:31:33 6144

原创 pandas 读取mysql数据的简单方法

#!/usr/bin/python # -*- coding: UTF-8 -*- import pandas as pdimport numpy as npimport mysql.connectorcnx = mysql.connector.connect(user='xxxx', password='xxxxx',

2016-12-15 17:44:32 2915

原创使用etl工具kettle比较数据文件是否有变更

原先是用python来实现的，参照例子：http://pbpython.com/excel-diff-pandas.html，现在考虑用elt工具kettle来实现类似的功能。对原有的例子稍加改造，删除两行记录，并添加新的两行记录，使用转换中的“合并记录”功能，比较有可能会发生变化的字段，如果不知道就全选，标志字段是合并后新增的字段，用来标注某条记录是否有变化，没有变化是“identical‘

2016-11-02 11:06:10 1313

原创关于Kettle的增量更新

研究了一下文件和数据库的增量更新，操作稍有不同。1.EXCEL文件更新：（1）输入EXCEL（最新内容的）文件；（2）选择转换里的“过滤记录”，条件选择比较字段A（一般是日期、时间这种）发送false输出到表；（3）输出需要被更新的EXCEL表。2.数据库表的更新：（1）输入最新数据的表；（2）选择转换里的“更新”，注意这里要把lookup查询表改成你需

2016-10-25 10:56:05 1941

原创 SSH通道的Kettle链接MySQL方法

参考文献：http://www.ukettle.org/thread-452-1-1.html对于采用SSH通道的MySQL服务器，Kettle无法直接连接，需要使用到使用SSH工具：PUTTY。主要是需要用putty这个工具新建一个端口既连接上了SSH通道，同时又配置了所需连接的数据库的端口及IP信息。下载地址：http://www.chiark.greenend.org.uk/~sg

2016-09-29 14:16:38 7991 5

原创基于NAR神经网络的化工产品价格预测的实现（Matlab）

clear allclc %清除环境xlsread('styrene.xls') %读取苯乙烯价格序列ans=...（系统会显示具体值）styrene=ans' %变换为行向量 lag=3; % 自回归阶数iinput=styrene;n=length(iinput);%准备输入和输出数据inputs=zeros(lag,n-lag);fo

2016-08-22 14:58:08 5756 7

原创基于Hadoop的Kylin测试环境搭建

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区，它能在亚秒内查询巨大的Hive表。本文旨在单机上搭建一个测试环境。1.部署环境：根据官方文档，Kylin系统要求：Hadoop: 2.4+，Hive: 0.13+，HBase: 0.98+, 1.x，JDK:

2016-08-02 19:41:58 2384 2

转载 Python SyntaxError: Non-ASCII character '\xe5'编码错误

在编写Python时，当使用中文输出或注释时运行脚本，会提示错误信息：SyntaxError: Non-ASCII character '\xe5' in file *******解决方法：python的默认编码文件是用的ASCII码，你将文件存成了UTF-8！！！（文件中存在中文或者其他语言，就会出现此问题！）解决办法很简单！！！在文件开头加入：# -*- cod

2016-07-27 20:50:04 477

原创利用Python进行数据分析环境部署

系统环境：WIN7 64位+i54460+8G，micosoft visual studio 2010（不要装更高的版本，不然matlab R2011a用不了了:) )1.安装python27:python-2.7.12.amd64,目录d:\Python27（所有都勾上，尤其是pip，安装插件包要用）2.安装epd free（集成了numpy,scipy,matplotlib,ipyth

2016-07-20 17:54:04 1214

原创 Python_Statsmodels包_时间序列分析_ARIMA模型

基础库： pandas,numpy,scipy,matplotlib,statsmodels ：from __future__ import print_functionimport pandas as pdimport numpy as npfrom scipy import statsimport matplotlib.pyplot as pltimport stat

2016-07-20 10:07:24 96522 84

hal_sakai的博客