LZH的笔记

——

排序:
默认
按更新时间
按访问量

【SciKit-Learn学习笔记】8:k-均值算法做文本聚类,聚类算法性能评估

学习《scikit-learn机器学习》时的一些实践。 原理见K-means和K-means++的算法原理及sklearn库中参数解释、选择。 sklearn中的KMeans from sklearn.datasets import make_blobs from matplotlib impo...

2018-11-30 19:21:39

阅读数:12

评论数:0

【SciKit-Learn学习笔记】7:PCA结合SVM做AT&T数据集人物图像分类

学习《scikit-learn机器学习》时的一些实践。 原理见PCA及绘制降维与恢复示意图。 sklearn的PCA sklearn中包装的PCA也是不带有归一化和缩放等预处理操作的,可以用MinMaxScaler()实现并装在Pipeline里封装起来。 from sklearn.d...

2018-11-30 12:34:25

阅读数:14

评论数:1

【ML学习笔记】25:PCA及绘制降维与恢复示意图

主成分分析 简述 主成分分析意在学习一个映射UreduceU_{reduce}Ureduce​,能将高维数据投射到低维空间上(在矩阵表示中即将数据的列变少),PCA后的低维空间数据可通过映射UreduceTU_{reduce}^TUreduceT​还原成高维数据的近似。PCA意在使得在指定维度的低...

2018-11-30 12:05:31

阅读数:11

评论数:0

【SciKit-Learn学习笔记】6:朴素贝叶斯做文档分类并绘制混淆矩阵

学习《scikit-learn机器学习》时的一些实践。 条件独立 朴素即指的是条件独立假设,假设n个特征之间不相关,则可据联合概率的条件展开式: p(Ck)P(x∣Ck)=P(Ck,x)=P(x1,x2,..,xn,Ck)=P(x1∣x2,..,xn,Ck)P(x2,..,xn,Ck)=...

2018-11-28 19:42:51

阅读数:28

评论数:0

【SciKit-Learn学习笔记】5:核SVM分类和预测乳腺癌数据集

学习《scikit-learn机器学习》时的一些实践。 常用参数 参数C SVM分类器svm.SVC()中的参数C即SVM所优化的目标函数 argmin(∣∣w∣∣2+R∑i=1mεi)argmin \left( ||\pmb{w}||^2+R \sum_{i=1}^m \vareps...

2018-11-28 14:29:27

阅读数:17

评论数:0

【SciKit-Learn学习笔记】4:决策树拟合泰坦尼克号数据集并提交到Kaggle

学习《scikit-learn机器学习》时的一些实践。 决策树拟合泰坦尼克号数据集 这里用绘制参数-score曲线的方式去直观看出模型参数对模型得分的影响,作者使用了GridSearchCV来自动做k-fold交叉验证,并且能在多组模型参数中找到最优的一组和最优值(用平均score来评估)...

2018-11-22 16:37:32

阅读数:28

评论数:0

【SciKit-Learn学习笔记】3:线性回归测算波士顿房价,Logistic回归预测乳腺癌

学习《scikit-learn机器学习》时的一些实践。 线性回归 这部分和第一篇笔记"绘制随机波动样本的学习曲线 "部分基本类似。线性回归里可以加入多项式特征,以对模型做增强。 线性回归增加多项式特征,拟合sin函数 import n...

2018-11-20 21:28:32

阅读数:36

评论数:0

【SciKit-Learn学习笔记】2:kNN分类/回归,在糖尿病数据集上的表现

学习《scikit-learn机器学习》时的一些实践。 kNN分类 在三个点周围生成聚类样本,然后做的kNN分类。 这种把标准差取得好(不要太小),得到的就不一定是线性可分的数据了。比如图上右侧有个玫红点和蓝点交错。 from sklearn.datasets.samples_gene...

2018-11-20 15:25:45

阅读数:32

评论数:0

【SciKit-Learn学习笔记】1:SVM预测digits数据集,绘制随机波动样本的学习曲线

学习《scikit-learn机器学习》时的一些实践。 SVM预测digits数据集 sklearn里的各种模型对象统一了接口,fit()做训练,predit()做预测,用score()获得对模型测试结果的打分。 这里的打分不是acc,应该是决定系数。 查看数据形式 from skl...

2018-11-18 19:41:48

阅读数:43

评论数:0

【python学习笔记】46:随机漫步,埃拉托色尼筛法,蒙特卡洛算法,多项式回归

学习《Python与机器学习实战》和《scikit-learn机器学习》时的一些实践。 随机漫步 import matplotlib.pyplot as plt import numpy as np ''' 一维随机漫步 ''' # 博弈组数 n_person = 2000 # 每组抛硬币次...

2018-11-18 13:20:07

阅读数:72

评论数:0

【python学习笔记】45:认识Matplotlib和pyecharts数据可视化

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 Matplotlib数据可视化 数据准备 import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("E:/Data/pract...

2018-11-15 21:21:44

阅读数:52

评论数:0

【python学习笔记】44:Series.apply()列数据批量处理,Series.str.extract()正则匹配

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 Series.apply()列数据批量处理 先将该列取出,形成Series对象,再调用apply()方法传入用于处理的函数,这个过程就像map()一样。 import pandas as pd # 各国人口数据文件 df_po...

2018-11-14 20:35:24

阅读数:26

评论数:0

【python学习笔记】43:Pandas时序数据处理

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 Python中时间的一些常用操作 import time # 从格林威治时间到现在,单位秒 print('系统时间戳:', time.time()) print('本地时间按格式转成str:', time.strftime(...

2018-11-14 17:49:15

阅读数:30

评论数:1

【python学习笔记】42:Pandas数据缺失值/异常值/重复值处理

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 缺失值处理 Pandas数据对象中的缺失值表示为NaN。 import pandas as pd # 读取杭州天气文件 df = pd.read_csv("E:/Data/practice/hz_weathe...

2018-11-14 15:19:49

阅读数:25

评论数:0

【python学习笔记】41:认识Pandas中的数据变形

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 Pandas数据变形 关于stack()和unstack()见这里和这里。 import pandas as pd import numpy as np # 读取杭州天气文件 df = pd.read_csv(&quo...

2018-11-14 10:32:19

阅读数:26

评论数:0

【python学习笔记】40:Pandas中DataFrame的分组/分割/合并

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 DataFrame分组操作 注意分组后得到的就是Series对象了,而不再是DataFrame对象。 import pandas as pd # 还是读取这份文件 df = pd.read_csv(&am...

2018-11-14 09:28:26

阅读数:95

评论数:0

【python学习笔记】39:认识SQLAlchemy,简单操作Pandas中的DataFrame

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 认识SQLAlchemy SQLAlchemy是Python的ORM工具,就像Java有Hibernate一样,实现关系型数据库中的记录与Python自定义Class的对象的转化,实现操作之间的映射。 书上底层用了pym...

2018-11-13 19:19:38

阅读数:20

评论数:0

【python学习笔记】38:使用Selenium抓取去哪儿网动态页面

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 在去哪儿网PC端自由行页面,用户需要输入出发地和目的地,点击开始定制,然后就可以看到一系列相关的旅游产品。在这个旅游产品页换页不会改变URL,而是重新加载,这时页码没有体现在URL中,这种动态页面用传统的爬虫实现不了。 安...

2018-11-09 19:57:23

阅读数:82

评论数:0

【python学习笔记】37:认识Scrapy爬虫,爬取沪深A股信息

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 认识Scrapy爬虫 安装 书上说在pip安装会有问题,直接在Anaconda里安装。 创建Scrapy项目 PyCharm里没有直接的创建入口,在命令行创建(从Anaconda安装后似乎自动就在环境变量里了,可以直接用Scra...

2018-11-09 15:41:41

阅读数:42

评论数:0

【python学习笔记】36:抓取去哪儿网的旅游产品数据

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。 书上这章开篇就说了尽量找JSON格式的数据,比较方便解析(在python里直接转换成字典),去哪儿网PC端返回的不是JSON数据,这里抓取的是它的移动端的数据。 如果是就散落在网页上,我觉得就像上篇学习的那样用Beautiful...

2018-11-08 18:16:26

阅读数:76

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭