python
桂小林
专注于大数据与人工智能!
做一个“姿势正确,有深度,有维度”的人。。。
展开
-
诡异错误二:TypeError: data type not understood
如何使用Python产生一个数组,数组的长度为1024,数组的元素全为0?很简单啊, 使用zeros(1024) 即可实现!如何产生一个2×1024的全0矩阵呢?是否是zeros(2,1024) ?若是上述这种写法就会出现 TypeError: data type not understood 这种错误; 正确的写法是 zeros((2,1024)),python的二维数据表示要用二层括号来进原创 2017-08-18 15:13:27 · 48886 阅读 · 5 评论 -
基于决策树的网页分类(Python+Spark实现)
1、网页分类问题网页分类是一个经典的问题,例如:雅虎网站早期就是通过人工对网站进行分类以便于其他用户查找资料。网页分类的角度有多种,如:a、按网页类型(新闻、财经、体育、科技……);b、按网页内容:暂时性的(ephemeral):文章只是在某一段时间内对读者有意义,过了这段时间就没有意义了,如:当日股市涨跌新闻;长青的(evergreen):读者长久会对这些文章感兴趣,如:理财观念、育...原创 2018-04-15 23:30:35 · 2353 阅读 · 0 评论 -
Python+Jupyter+Spark编程经验总结
Jupyter中使用TAB键加速输入Jupyter中编写程序时,有函数提示功能。在Jupyter中编写Spark程序对RDD进行操作时,在输入.之后,可以按TAB键自动补全要输入的“转换”或“行动”。例如: 输入 rdd = sc.pa之后,再按TAB键就能自动补全rdd= sc.parallelize。在eclipse环境中编写spark程序时,提示功能更好用。将程序输出按指定...原创 2018-04-01 23:41:57 · 1536 阅读 · 0 评论 -
Python数据预处理中的LabelEncoder与OneHotEncoder
1、LabelEncoderLabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法:fit(y) :fit可看做一本空字典,y可看作要塞到字典中的词。 fit_transform(y):相当于先进行fit再进行transform,即把y塞到字典中去以后再进行transform得到索引值。 inverse_transform(y):根...原创 2018-04-08 15:21:42 · 55461 阅读 · 0 评论 -
pandas中的DataFrame按指定顺序输出所有列
问题:输出新建的DataFrame对象时,DataFrame中各列的显示顺序和DataFrame定义中的顺序不一致。例如:import pandas as pdgrades = [48,99,75,80,42,80,72,68,36,78]df = pd.DataFrame( {'ID': ["x%d" % r for r in range(10)],'Gender' : ['F...原创 2018-03-25 22:20:10 · 18694 阅读 · 0 评论 -
Python分析A股市场财务报表经验总结
1、读取具体目录下的文件名或目录名import ospath_root = 'F:\\data\\A股报表大全'dirs = os.listdir(path_root)for dir in dirs: print(dir)2、csv文件内容的读取(1)取出csv文件中指定的行import csvpath_lrb_year='F:\\data\\A股报表大全\\6...原创 2018-02-17 20:41:24 · 5293 阅读 · 0 评论 -
Anaconda下特殊软件安装和配置
设置Jupyter Notebook默认目录1、打开Anaconda Prompt; 2、输入命令:jupyter notebook --generate-config 3、找到C:\Users\Username下的jupyter_notebook_config.py文件; 4、打开文件,并将文件中字段c.NotebookApp.notebook_dir = ''更改为E:\Jupyt原创 2018-01-26 23:30:07 · 1270 阅读 · 0 评论 -
Eclipse kepler的PyDev Package Explorer环境下子包的创建
想到了就是一句话,右键单击项目 新建->PyDev Package ->弹出类似如下窗口。在Name对应的方框中输入supple.app的含义就是在supple包下创建子包app。若要在app之下再新建一个子包a,则需要输入supple.app.a。原创 2017-10-22 09:09:21 · 677 阅读 · 0 评论 -
Python中包、模块导入解释
1、简单情形Python中的包、模块导入主要有两种方式:(1) import package.module(2) from package import module将模块导入当前程序之后,模块module中对应的属性attr使用方式分别是:(1) package.module.attr(2) module.attr由此可以总结模块中的成员引用规律:import导入的包,使用包中具体成员时要原创 2017-10-29 18:29:24 · 5102 阅读 · 1 评论 -
机器学习算法系列——k近邻分类法
1、基本思想给定一个训练数据集(这些数据集是已知类别的),对新输入的要对其进行分类的实例,从训练数据中找出与该实例最近的k个实例,这k个实例的多数属于某个类(类似于这k个实例对新数据投票),就把该输入实例分为这个类。2、数学理论2.1 算法描述输入:训练数据集 T={(x1,y1),(x2,y2),...,(xN,yN))}T=\{(x_1,y_1),(x_2,y_2),..原创 2017-09-23 22:26:10 · 1798 阅读 · 0 评论 -
诡异错误一: ValueError: embedded null character
使用如下语句读取名为0_xx.txt 文件时,遇到错误 ValueError: embedded null characterif __name__ == '__main__': fr = open("F:\eclipse_workspace\machine_learning_example\Ch02\trainningDigits\0_38.txt") for i in rang原创 2017-08-18 16:08:38 · 21348 阅读 · 8 评论 -
基于支持向量机的网页分类(Python+Spark实现)
网页分类问题的介绍以及数据集的下载,见基于决策树的网页分类(Python+Spark实现)import sysfrom time import timeimport pandas as pdimport matplotlib.pyplot as pltfrom pyspark import SparkConf, SparkContextfrom pyspark.mllib.class...原创 2018-04-22 23:11:42 · 1177 阅读 · 1 评论