自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (5)
  • 收藏
  • 关注

原创 【SciKit-Learn学习笔记】8:k-均值算法做文本聚类,聚类算法性能评估

学习《scikit-learn机器学习》时的一些实践。原理见K-means和K-means++的算法原理及sklearn库中参数解释、选择。sklearn中的KMeansfrom sklearn.datasets import make_blobsfrom matplotlib import pyplot as pltfrom sklearn.cluster import KMeans...

2018-11-30 19:21:39 922

原创 【SciKit-Learn学习笔记】7:PCA结合SVM做AT&T数据集人物图像分类

学习《scikit-learn机器学习》时的一些实践。原理见PCA及绘制降维与恢复示意图。sklearn的PCAsklearn中包装的PCA也是不带有归一化和缩放等预处理操作的,可以用MinMaxScaler()实现并装在Pipeline里封装起来。from sklearn.decomposition import PCAfrom sklearn.pipeline import Pip...

2018-11-30 12:34:25 1476 1

原创 【ML学习笔记】25:PCA及绘制降维与恢复示意图

主成分分析简述主成分分析意在学习一个映射UreduceU_{reduce}Ureduce​,能将高维数据投射到低维空间上(在矩阵表示中即将数据的列变少),PCA后的低维空间数据可通过映射UreduceTU_{reduce}^TUreduceT​还原成高维数据的近似。PCA意在使得在指定维度的低维表示中,投射误差总是最小。在ML中即用于将mmm个样本的特征数目从nnn减少到kkk。归一化设样...

2018-11-30 12:05:31 9141

原创 【SciKit-Learn学习笔记】6:朴素贝叶斯做文档分类并绘制混淆矩阵

学习《scikit-learn机器学习》时的一些实践。条件独立朴素即指的是条件独立假设,假设n个特征之间不相关,则可据联合概率的条件展开式:p(Ck)P(x∣Ck)=P(Ck,x)=P(x1,x2,..,xn,Ck)=P(x1∣x2,..,xn,Ck)P(x2,..,xn,Ck)=P(x1∣x2,..,xn,Ck)P(x2∣x3,..,xn,Ck)P(x3,..,xn,Ck)......=...

2018-11-28 19:42:51 2167 1

原创 【SciKit-Learn学习笔记】5:核SVM分类和预测乳腺癌数据集

学习《scikit-learn机器学习》时的一些实践。常用参数参数CSVM分类器svm.SVC()中的参数C即SVM所优化的目标函数argmin(∣∣w∣∣2+R∑i=1mεi)argmin \left( ||\pmb{w}||^2+R \sum_{i=1}^m \varepsilon_i \right)argmin(∣∣www∣∣2+Ri=1∑m​εi​)中,松弛系数ε\vareps...

2018-11-28 14:29:27 4216 7

原创 【SciKit-Learn学习笔记】4:决策树拟合泰坦尼克号数据集并提交到Kaggle

学习《scikit-learn机器学习》时的一些实践。决策树拟合泰坦尼克号数据集这里用绘制参数-score曲线的方式去直观看出模型参数对模型得分的影响,作者使用了GridSearchCV来自动做k-fold交叉验证,并且能在多组模型参数中找到最优的一组和最优值(用平均score来评估)。这种方式可以避免一次随机划分造成的不确定性太大,得到的曲线很不稳定。import pandas as ...

2018-11-22 16:37:32 1444 1

原创 【SciKit-Learn学习笔记】3:线性回归测算波士顿房价,Logistic回归预测乳腺癌

学习《scikit-learn机器学习》时的一些实践。线性回归这部分和第一篇笔记"绘制随机波动样本的学习曲线 "部分基本类似。线性回归里可以加入多项式特征,以对模型做增强。线性回归增加多项式特征,拟合sin函数import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import Linear...

2018-11-20 21:28:32 2853 1

原创 【SciKit-Learn学习笔记】2:kNN分类/回归,在糖尿病数据集上的表现

学习《scikit-learn机器学习》时的一些实践。kNN分类在三个点周围生成聚类样本,然后做的kNN分类。这种把标准差取得好(不要太小),得到的就不一定是线性可分的数据了。比如图上右侧有个玫红点和蓝点交错。from sklearn.datasets.samples_generator import make_blobs # 用于生成聚类样本from matplotlib impo...

2018-11-20 15:25:45 4743 2

原创 【SciKit-Learn学习笔记】1:SVM预测digits数据集,绘制随机波动样本的学习曲线

学习《scikit-learn机器学习》时的一些实践。SVM预测digits数据集sklearn里的各种模型对象统一了接口,fit()做训练,predit()做预测,用score()获得对模型测试结果的打分。这里的打分不是acc,应该是决定系数。查看数据形式from sklearn import datasetsfrom matplotlib import pyplot as plt...

2018-11-18 19:41:48 2373

原创 【Python学习笔记】46:随机漫步,埃拉托色尼筛法,蒙特卡洛算法,多项式回归

学习《Python与机器学习实战》和《scikit-learn机器学习》时的一些实践。随机漫步import matplotlib.pyplot as pltimport numpy as np'''一维随机漫步'''# 博弈组数n_person = 2000# 每组抛硬币次数n_times = 500# 抛硬币次数序列,用于当绘制点的横坐标t = np.arange...

2018-11-18 13:20:07 822

原创 【Python学习笔记】45:认识Matplotlib和pyecharts数据可视化

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。Matplotlib数据可视化数据准备import pandas as pdimport matplotlib.pyplot as pltdf = pd.read_csv("E:/Data/practice/taobao_data.csv")# 求不同位置的产品的数值字段(价格,成交量)的均值,然后按成交量降序df...

2018-11-15 21:21:44 2430 2

原创 【Python学习笔记】44:Series.apply()列数据批量处理,Series.str.extract()正则匹配

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。Series.apply()列数据批量处理先将该列取出,形成Series对象,再调用apply()方法传入用于处理的函数,这个过程就像map()一样。import pandas as pd# 各国人口数据文件df_pop = pd.read_csv("E:/Data/practice/european_cities.c...

2018-11-14 20:35:24 3849

原创 【Python学习笔记】43:Pandas时序数据处理

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。Python中时间的一些常用操作import time# 从格林威治时间到现在,单位秒print('系统时间戳:', time.time())print('本地时间按格式转成str:', time.strftime('%Y-%m-%d %X', time.localtime()))# 无参的localtime返回...

2018-11-14 17:49:15 1310 2

原创 【Python学习笔记】42:Pandas数据缺失值/异常值/重复值处理

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。缺失值处理Pandas数据对象中的缺失值表示为NaN。import pandas as pd# 读取杭州天气文件df = pd.read_csv("E:/Data/practice/hz_weather.csv")# 数据透视表df1 = pd.pivot_table(df, index=['天气'], colu...

2018-11-14 15:19:49 15415 2

原创 【Python学习笔记】41:认识Pandas中的数据变形

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。Pandas数据变形关于stack()和unstack()见这里和这里。import pandas as pdimport numpy as np# 读取杭州天气文件df = pd.read_csv("E:/Data/practice/hz_weather.csv", delimiter=',', encoding=...

2018-11-14 10:32:19 1318

原创 【Python学习笔记】40:Pandas中DataFrame的分组/分割/合并

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。DataFrame分组操作注意分组后得到的就是Series对象了,而不再是DataFrame对象。import pandas as pd# 还是读取这份文件df = pd.read_csv("E:/Data/practice/taobao_data.csv", delimiter=',', encoding='utf-...

2018-11-14 09:28:26 36355 2

原创 【Python学习笔记】39:认识SQLAlchemy,简单操作Pandas中的DataFrame

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。认识SQLAlchemySQLAlchemy是Python的ORM工具,就像Java有Hibernate一样,实现关系型数据库中的记录与Python自定义Class的对象的转化,实现操作之间的映射。书上底层用了pymysql,但是实践中会出现问题,网上查了一下改用mysql-connector-python就可以了。fro...

2018-11-13 19:19:38 1862

原创 【Python学习笔记】38:使用Selenium抓取去哪儿网动态页面

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。在去哪儿网PC端自由行页面,用户需要输入出发地和目的地,点击开始定制,然后就可以看到一系列相关的旅游产品。在这个旅游产品页换页不会改变URL,而是重新加载,这时页码没有体现在URL中,这种动态页面用传统的爬虫实现不了。安装配置Selenium本身用Anaconda安装,作为模拟用户行为的自动化测试工具,它另外还要使用浏览器驱...

2018-11-09 19:57:23 1235

原创 【Python学习笔记】37:认识Scrapy爬虫,爬取沪深A股信息

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。认识Scrapy爬虫安装书上说在pip安装会有问题,直接在Anaconda里安装。创建Scrapy项目PyCharm里没有直接的创建入口,在命令行创建(从Anaconda安装后似乎自动就在环境变量里了,可以直接用Scrapy命令):然后从PyCharm项目选择页面里Open一下即可。右击项目的同名子目录,将其Mark...

2018-11-09 15:41:41 1279 2

原创 【Python学习笔记】36:抓取去哪儿网的旅游产品数据

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。书上这章开篇就说了尽量找JSON格式的数据,比较方便解析(在python里直接转换成字典),去哪儿网PC端返回的不是JSON数据,这里抓取的是它的移动端的数据。如果是就散落在网页上,我觉得就像上篇学习的那样用BeautifulSoup这样的网页解析器去解析。解决"您的访问不合法,请联系技术人员"在实践这个的时候总是出现上面...

2018-11-08 18:16:26 2551 1

原创 【Python学习笔记】35:爬虫基础和相关产品API(和风天气)使用实例

学习《Python3爬虫、数据清洗与可视化实战》时自己的一些实践。在网站URL后面跟robots.txt一般就可以看到网站允许和禁止爬取的资源。GET请求获取响应内容最基本的爬虫。import requests'''中国旅游网 /www.cntour.cn'''url = 'http://www.cntour.cn'response = requests.get(url) ...

2018-11-08 10:44:46 3047

算符优先分析法

设有文法G[S]:S→SaF | F F→FbP | P P→c | d (1) 构造G[S]的算符优先关系表 (2) 分别给出cadbdac# 和 dbcabc# 的分析过程

2018-05-22

已经整合好的小型S2SH框架(完全注释+依赖jar包)

已经将Struts2和Hibernate与Spring整合,测试可用。含三个框架的核心依赖jar包,不含JDBC驱动,测试例子是用MySQL作为数据库的。请自行更换数据库,添加驱动,修改Hibernate设置和数据库配置。 含有大量注释,适合学生立即上手开发课程项目。

2018-05-13

举例说明汇编语言子程序递归调用过程中堆栈内容的变化过程

上海大学课程研讨,题目是举例说明汇编语言子程序递归调用过程中堆栈内容的变化过程。上海大学课程研讨,题目是举例说明汇编语言子程序递归调用过程中堆栈内容的变化过程。

2017-12-03

有关ADSL与调制技术

有关ADSL和相关的调制技术,计算机网络研讨课演讲PPT。

2017-10-04

有关Linux进程家族树

操作系统课程研讨PPT,有关Linux进程家族树的形成,服务的自动开启。操作系统课程研讨PPT,有关Linux进程家族树的形成,服务的自动开启。操作系统课程研讨PPT,有关Linux进程家族树的形成,服务的自动开启。

2017-10-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除