python
文章平均质量分 64
Running_you
这个作者很懒,什么都没留下…
展开
-
费舍尔方法
朴素贝叶斯不能对分类概率进行大致估算,只能判定特征项属于哪一类的概率最大,因此费舍尔方法弥补该缺陷,可以直接估算特征项从属于某一类的概率值,下面首先列出基本代码以供参考,后期补充内容:# -*- coding: utf-8 -*-import reimport mathdef getwords(doc): splitter=re.compile('\\W*') words=[s.l原创 2015-08-13 18:05:53 · 1993 阅读 · 0 评论 -
networkx库:AttributeError: 'module' object has no attribute 'graphviz_layout'
起因 在学习用python处理自然语言时,遇到借用networkx绘图来描述词语上下位关系的小练习,于是尝试,电脑win10环境,anaconda函数库包,自带networkx库,pycharm的集成环境,利用命令行运行如下代码:import networkx as nxG=nx.complete_graph(5)nx.draw_graphviz(G)如果使用nx.draw(G)没问题,这原创 2016-07-12 11:30:01 · 10001 阅读 · 1 评论 -
python 模拟抓取网页的工具包
这段时间在尝试破解各大网站的登录系统,同时又要避开人机识别码的验证,通过chrome的js调试器不断尝试深入了解各网站系统的登录流程及验证过程,总结发现了几款非常实用的工具包,对于抓取网站数据或是执行js脚本等非常有帮助,大大提高开发的效率,具体的开发细节不便透露,简要介绍下使用的工具包:1,python目前开发已经逐渐适应了python的简洁高效,有太多强大的工具包可支撑开发的需要,为开发者避开底原创 2016-04-28 10:52:38 · 1269 阅读 · 0 评论 -
Python正则表达式指南
参考地址(AstralWind): http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.htmlsearch()与match()的不同之处:match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]): 这个方法将从string的pos下标处起尝试匹配patter转载 2016-04-21 09:53:44 · 431 阅读 · 0 评论 -
Python优秀函数库集锦(一)
Python第三方函数库数据分析函数库Numpy:Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。 Pandas:它是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效原创 2015-12-26 15:06:10 · 3917 阅读 · 0 评论 -
Python优秀函数库集锦(二)
源地址:https://github.com/jobbole/awesome-python-cn 伯乐在线地址:http://python.jobbole.com/84464/环境管理管理 Python 版本和环境的工具p – 非常简单的交互式 python 版本管理工具。 pyenv – 简单的 Python 版本管理工具。 Vex – 可以在虚拟环境中执行命令。 virtualenv –转载 2016-04-14 16:25:44 · 11210 阅读 · 2 评论 -
Python scikit-learn机器学习:feature_selection模块
sklearn.feature_selection模块的作用是feature selection,关键在于选择合适的变量达到降维的目的,而feature extraction模块则是从数据集中利用某类算法抽取具有代表性的特征,例如tf-idf使用。Univariate feature selection:单变量的特征选择单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些转载 2016-03-01 11:10:18 · 6302 阅读 · 0 评论 -
关于spark运行FP-growth算法报错com.esotericsoftware.kryo.KryoException
Spark运行FP-growth异常报错在spark1.4版上尝试运行频繁子项挖掘算法是,照搬官方提供的python案例源码时,爆出该错误com.esotericsoftware.kryo.KryoException (java.lang.IllegalArgumentException: Can not set final scala.collection.mutable.ListBuffer f原创 2016-02-05 10:49:37 · 4150 阅读 · 0 评论 -
SparkSQL与Hive的应用关系
Spark生态圈 Spark是基于scala语言产生的,因此有关spark中的各大编程应用也基本跟scala脱不开关系,但是好在spark的平台化做的不错,目前可支持python及R等语言的应用,这些得益于sparkSQL组件的存在,整个spark的结构组件如下如所示: 关于spark的组件功能描述不多说,可以参考博客spark入门系列及 官方资料等,保证有个初步的印象。SparkSQL在原创 2015-11-03 20:04:28 · 6780 阅读 · 0 评论 -
Seaborn使用说明
python作图已成为数据分析中不可或缺的手段,常使用的包为matplotlib,它被很多其它包所依赖,例如pandas中具有的绘图功能就是对matplotlib的API的二次封装使用,今天要说明的seaborn包则提供了一种新的绘图功能,其简单易行的封装功能带来更为强大和美观的绘图效果,现简要说明该包[功能],主要分为三大类:(http://web.stanford.edu/~mwaskom/so原创 2016-01-06 18:15:22 · 3962 阅读 · 0 评论 -
关于spark提交作业报错原因
spark提供了scala,java及python等脚本作业的功能,但是在实际运行中很容易卡在sc初始化问题上,这里主要原因在于启动spark环境后系统会自建sc环境,若用户在脚本中新建sc将会报错,但是不使用sc又难以达到脚本的效果,这里提供python脚本的提交方法说明: spark-submit –master local[4] svm.py而其中关于svm.py的内容则应该这么写:fr原创 2015-11-12 17:09:22 · 2024 阅读 · 0 评论 -
Theano深度学习(逻辑回归)
转载:http://deeplearning.net/software/theano/tutorial/examples.html 核心要点:共享变量shared,函数构建functionimport numpyimport theanoimport theano.tensor as Trng = numpy.randomN = 400原创 2016-08-10 17:39:49 · 607 阅读 · 0 评论