![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 83
a_step_further
这个作者很懒,什么都没留下…
展开
-
专题练习:K折交叉验证 VS 留一法
前言欢迎关注本人公众号本篇结合周志华老师《机器学习》第3章习题而讲。做为入门项目,我们推荐使用Python来进行编码实践,有需求了解更多其它机器学习生态的同学,可以在公众号后面留言,也可以加入数据科学实战QQ交流群:250695418。好了,来做习题吧西瓜书《机器学习》p69页第3.4题:选择两个UCI数据集,比较10折交叉验证和留一法所估计出的对率回归的错误率。...原创 2020-04-11 20:35:17 · 1249 阅读 · 0 评论 -
专题练习:对率回归(逻辑回归)的编程实践
前言欢迎关注本人公众号:本篇结合周志华老师《机器学习》第3章习题而讲。对率回归,其实就是logistic regression,也即业界常说的逻辑回归,但后者这个译法并不好,周老师将之译为了对率回归,没有屈服于现有的“劣币”译法,体现了教育者的独立精神,点赞!关于logistic回归的知识,还可以参考本公众号历史文章《上手机器学习系列-第3篇-聊聊逻辑回归》,共分上、中、下三...原创 2020-04-11 20:28:52 · 490 阅读 · 0 评论 -
上手机器学习系列-第7篇(上)-CatBoost编码
前言本篇继续我们的集成算法学习之旅。这次带来的是一家俄罗斯搜索引擎公司推出的集成学习算法:Catboost(官网[https://catboost.ai/])。名字中的cat代表着categorical,就是说它可以直接处理类别型的特征变量,而无须进行one-hot-encoding处理,这还真是相比于其它算法包的一个优点。此外,官方宣传的卖点还包括:简化的调参(默认的参数即可实现高质量的预测)...原创 2020-03-15 20:03:27 · 1695 阅读 · 0 评论 -
python scikit learn 文本分类
#!/usr/bin/env python#coding:utf-8import jiebafrom sklearn.feature_extraction.text import HashingVectorizerimport sysimport randomfrom sklearn.naive_bayes import GaussianNBfrom sklearn.naive_b原创 2015-12-05 22:00:51 · 1360 阅读 · 0 评论 -
初试主题模型LDA-基于python的gensim包
LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取,故而尝试了一下该算法,基于python的gensim包实现一个简单的分析。准备工作安装python的中文分词模块, jieba安装python的文本主题建模的模块, gensim (官网 https://r原创 2016-04-18 08:11:04 · 14658 阅读 · 3 评论 -
复杂网络社区结构发现算法-基于python networkx clique渗透算法
前言 最近因为业务数据分析的需要,看社区发现相关的东东稍多些,刚刚写过一篇基于igraph C library的方法(http://km.oa.com/group/22323/articles/show/240332),然后想用kclique衍生的clique渗透算法时发现igraph C library 并未提供现成的api,对于懒人来说,这很不幸。既而发现networkx这个原创 2016-04-18 08:21:03 · 26420 阅读 · 18 评论 -
用python从PDF格式论文中读取其中的参考文献
目标: 给定一篇PDF格式的文章,用python解析其内容,并使用正则表达式提取出其中的参考文献内容 本文中假设参考文献内容以[1] [2] 这样的索引编写。必要条件: 安装解析PDF文件的python软件 pdfminer 包 http://www.unixuser.org/~euske/python/pdfminer/index.html原创 2016-10-23 17:17:38 · 7400 阅读 · 5 评论 -
从爬取到展示,数据科学工具串联练手
日常情况下,我们常常是从整洁的数据仓库表中读取数据,进行数据分析,但事实上,数据科学工作往往需要进行数据获取,预处理,分析,展示这样整个的流程。本文从一个实际的案例出来,将不同的分析工具串联起来(虽然仅用一种工具也能实现全流程工作,但不是本文的侧重点),目的是为了体现不同工具的特点和实际使用方法,有利于开拓思路。任务说明从新浪微博上爬取天猫超市微博消息的评论,进行分词,使用文字云的形式进行可视化。...原创 2018-02-24 12:42:40 · 361 阅读 · 0 评论