万万妹学撸码-CSDN博客

原创机器学习的第一步——用 sklearn train_test_split 划分训练子集和测试子集

文章目录前言格式参数解释示例前言进行机器学习的第一步是数据的导入和预处理，sklearn的train_test_split函数可以将矩阵随机划分为训练子集和测试子集，并返回划分好的训练集测试集样本和训练集测试集标签。格式X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)参数解释train_data：

2020-08-28 10:38:49 512

原创文本预处理步骤——概念与python nltk和sklearn CountVectorizer

文本预处理步骤文章目录文本预处理步骤词干提取（stemming）概念波特(Porter)词干算法雪球(Snowball)词干算法统计词频（TF）删除停用词（stop words）统计逆文档频率（IDF）计算TF-IDF值概念scikit-learn代码说明参数简单说明词干提取（stemming）概念词干提取是英文语料预处理的一个步骤（中文并不需要），因为在英语中，一个单词常常是另一个单词的“变种”，如：happy=>happiness，这里happy叫做happiness的词干（stem）。

2020-08-26 20:06:43 859

原创 python sklearn中分类算法的理解及简单应用：朴素贝叶斯、支持向量机(SVM)与决策树

了解朴素贝叶斯、支持向量机、决策树及其他分类算法的定义和sklearn中的简单应用。

2020-08-14 18:47:39 2341

原创从NYtimes developer APIs获取最热门文章——运用python requests与json模块

本题来自于Udacity data analyst课程。题目要求从NYtimes developer APIs 获取前一天最热门文章，并返回一个变量元祖，其中包含以下数据：标签：字典列表，其中键是“版块(“section”)”值，值是每个所检索的文章的“标题(“title”)”值。URL：所有“media”条目的 URL 列表，“格式”(“format”)：标准缩略图(“Standard Thumbnail”)练习的目的是考察学生从JSON文件中提取信息的能力，和对for循环的掌握程度。课程 UI

2020-08-03 17:06:00 244

原创 Python requests.get()与读取json保姆级入门——以musicbrainz API为例

编程小白在接触Python爬虫或数据分析时，第一个碰到的可能就是request函数了。网上已经有很多大牛总结过使用方法（例如：Requests库详解1]）。其中，最常用的方法是requests.get()，参数为：request.get(url,params=None,**kwargs)参数含义：url：获取html的网页的urlparams：url中的额外的参数，字典或字节流格式，可选**kwargs：12个控制访问的参数在这些参数中，params表示在URL的查询字符串中发送某种数据，

2020-07-31 13:06:11 8441

原创 Python xlrd 详解，获取最大值、日期处理

在接触Python的过程中，总是由于不大了解模块方法而产生畏难情绪。特别是在已经熟悉了Excel之后，再学习用Python处理数据，还得从最简单的方法学起。就例如比较大小这种在Excel里轻松实现的功能，在Python里如果从零开始琢磨，也得想很久。下面是一些小经验，抛砖引玉。

2020-07-30 20:32:28 2467

原创 Pandas GroupBy三层套路？as_index是什么？一个案例分析

通过例子，展示GroupBy特性与分组

2020-07-29 20:30:17 825

原创 Python Pandas 对每行(column)进行运算——以Pearson相关系数为例

Python Pandas DataFrame默认按列(row)计算，本例展示了如何按行(column)计算。在编写 Pandas 代码时要格外注意指定数轴（axis）。

2020-07-29 11:57:15 5832

万万妹学python