数据分析
文章平均质量分 89
普通网友
这个作者很懒,什么都没留下…
展开
-
机器学习全套教程(六)-- 主成分分析
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn2.6 主成分分析学习目标目标 应用PCA实现特征的降维 应用 用户与物品类别之间主成分分析 2.6.1 什么是主成分分析(PCA) 定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量 作用:是数据维数压缩,尽可能降低原...原创 2019-03-19 12:42:09 · 1142 阅读 · 2 评论 -
机器学习全套教程(八)-- sklearn转换器和估计器
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cnsklearn转换器和估计器学习目标目标 知道sklearn的转换器和估计器流程 应用 无 1、转换器和估计器1.1 转换器想一下之前做的特征工程的步骤?1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transfo...原创 2019-03-21 08:59:04 · 909 阅读 · 0 评论 -
机器学习全套教程(七)-- 数据集介绍与划分
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn数据集介绍与划分学习目标目标 知道数据集的分为训练集和测试集 知道sklearn的分类、回归数据集 应用 无 拿到的数据是否全部都用来训练一个模型?1、 数据集的划分机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型 测试数据:在...原创 2019-03-21 08:57:53 · 961 阅读 · 0 评论 -
python数据分析与挖掘(二十九)--- Pandas量化--股票时间序列数据处理
Python教程网:www.python88.cn1 什么是时间序列时间序列是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数据进行分析处理。例如:某监控系统的折线图表,显示了请求次数和响应时间随时间的变化趋势2 Pandas的时间类型pd.to_datetime(...原创 2019-01-28 21:15:24 · 4463 阅读 · 0 评论 -
python数据分析与挖掘(二十七)--- Pandas量化--股票基础知识
Python教程网:www.python88.cn1 什么是股票股票,是股份公司签发的证明股东所持股份的凭证,代表了股东对股份公司净资产的所有权。特点:每股股票都代表股东对企业拥有单位的所有权,所拥有的份额取决于持有的股票数量总占比。2 股票按照股东权利的分类按股东权利分类,股票可分为普通股、优先股等拓展:普通股普通股是指在公司的经营管理和盈利及财产的分配上享有普...原创 2019-01-28 21:12:53 · 1428 阅读 · 0 评论 -
python数据分析与挖掘(二十六)--- Pandas练习
4.11.1 需求现在我们有一组从2006年到2016年1000部最流行的电影数据,数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取? 问题2:对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据? 问题3:对于...原创 2019-01-28 21:10:26 · 1129 阅读 · 0 评论 -
python数据分析与挖掘(二十五)--- Pandas高级处理分组与聚合
分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况想一想其实刚才的交叉表与透视表也有分组的功能,所以算是分组的一种形式,只不过他们主要是计算次数或者计算比例!!看其中的效果:4.10.1 什么是分组与聚合4.10.2 分组与聚合APIDataFrame.groupby(key, as_index=False) key:分组的列数据,可...原创 2019-01-28 21:07:10 · 1385 阅读 · 0 评论 -
python数据分析与挖掘(二十四)--- Pandas高级处理交叉表与透视表
4.9.1 交叉表与透视表什么作用探究股票的涨跌与星期几有关?以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例4.9.2 使用crosstab(交叉表)实现交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(寻找两个列之间的关系) pd.crosstab(va...原创 2019-01-28 21:05:33 · 1189 阅读 · 0 评论 -
python数据分析与挖掘(二十三)--- Pandas高级处理-合并
高级处理-合并学习目标目标 应用pd.concat实现数据的合并 应用pd.merge实现数据的合并 应用 无 4.8.1 pd.concat实现合并 4.8.2 pd.merge实现合并 4.8.3 总结如果你的数据由多张表组成,那么有时候需要将不同的内容合并在一起分析4.8.1 pd.concat实现合并pd.concat([data1, data2]...原创 2019-01-28 21:03:44 · 644 阅读 · 0 评论 -
python数据分析与挖掘(二十二)--- Pandas高级处理-数据离散化
4.7 高级处理-数据离散化学习目标目标 应用cut、qcut实现数据的区间分组 应用get_dummies实现数据的one-hot编码 应用 找出股票的涨跌幅异动(异常)值 内容预览 4.7.1 什么是数据的离散化 4.7.2 为什么要离散化 4.7.3 如何实现数据的离散化 4.7.4 小结 4.7.1 什么是数据的离散化连续属性的离散化就是将...原创 2019-01-28 21:02:42 · 765 阅读 · 1 评论 -
python数据分析与挖掘(二十一)--- Pandas高级处理-缺失值处理
Python教程网:www.python88.cn高级处理-缺失值处理1 如何处理nan对于NaN的数据,在numpy中我们是如何处理的?在pandas中我们处理起来非常容易判断数据是否为NaN:pd.isnull(df), pd.notnull(df)处理方式: 存在缺失值nan, 并且是np.nan: 1 删除存在缺失值的:dropna(axis=...原创 2019-01-28 21:01:38 · 1295 阅读 · 0 评论 -
机器学习全套教程(九)-- K-近邻算法
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cnK-近邻算法学习目标目标 说明K-近邻算法的距离公式 说明K-近邻算法的超参数K值以及取值问题 说明K-近邻算法的优缺点 应用KNeighborsClassifier实现分类 了解分类算法的评估标准准确率 应用 Facebook签到位置预测 问题:...原创 2019-03-21 09:03:32 · 1075 阅读 · 1 评论 -
机器学习全套教程(十)-- 模型选择与调优
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn模型选择与调优学习目标目标 说明交叉验证过程 说明超参数搜索过程 应用GridSearchCV实现算法参数的调优 应用 Facebook签到位置预测调优 1、为什么需要交叉验证交叉验证目的:为了让被评估的模型更加准确可信2、什么是交叉验证(cros...原创 2019-03-21 09:04:09 · 433 阅读 · 0 评论 -
机器学习全套教程(十一)-- 朴素贝叶斯算法
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn朴素贝叶斯算法学习目标目标 说明条件概率与联合概率 说明贝叶斯公式、以及特征独立的关系 记忆贝叶斯公式 知道拉普拉斯平滑系数 应用贝叶斯公式实现概率的计算 应用 20类新闻文章分类预测 1、 什么是朴素贝叶斯分类方法2、 概率基础2...原创 2019-03-21 09:04:43 · 628 阅读 · 0 评论 -
机器学习全套教程(五)-- 特征降维
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn2.5 特征降维学习目标目标 知道特征选择的嵌入式、过滤式以及包裹氏三种方式 应用VarianceThreshold实现删除低方差特征 了解相关系数的特点和计算 应用相关性系数实现特征选择 应用 无 2.5.1 降维降维是指在某些限定条件下,降低随...原创 2019-03-19 12:41:17 · 3094 阅读 · 4 评论 -
机器学习全套教程(四)-- 特征预处理
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn2.4 特征预处理学习目标目标 了解数值型数据、类别型数据特点 应用MinMaxScaler实现对特征数据进行归一化 应用StandardScaler实现对特征数据进行标准化 应用 无 什么是特征预处理?2.4.1 什么是特征预处理# sci...原创 2019-03-19 12:39:59 · 1544 阅读 · 0 评论 -
机器学习全套教程(三)---特征抽取
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn2.3 特征提取学习目标目标 应用DictVectorizer实现对类别特征进行数值化、离散化 应用CountVectorizer实现对文本特征进行数值化 应用TfidfVectorizer实现对文本特征进行数值化 说出两种文本特征提取的方式区别 应用 无...原创 2019-03-19 12:39:06 · 4856 阅读 · 0 评论 -
机器学习全套教程(一)------- 数据集
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn2.1 数据集目标 知道数据集的分为训练集和测试集 会使用sklearn的数据集 应用 无 2.1.1 可用数据集Kaggle网址:https://www.kaggle.com/datasetsUCI数据集网址:http://archive.ics....原创 2019-03-19 12:36:59 · 1643 阅读 · 1 评论 -
机器学习全套教程(十七)-- 分类算法-逻辑回归与二分类
分类算法-逻辑回归与二分类学习目标目标 说明逻辑回归的损失函数 说明逻辑回归的优化方法 说明sigmoid函数 知道逻辑回归的应用场景 知道精确率、召回率指标的区别 知道F1-score指标说明召回率的实际意义 说明如何解决样本不均衡情况下的评估 了解ROC曲线的意义说明AUC指标大小 应用classification_report实现精确率、召回率计算...原创 2019-03-25 13:32:33 · 1567 阅读 · 0 评论 -
机器学习全套教程(十六)-- 线性回归的改进-岭回归
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn线性回归的改进-岭回归学习目标目标 说明岭回归的原理即与线性回归的不同之处 说明正则化对于权重参数的影响 说明L1和L2正则化的区别 应用 波士顿房价预测 1、 带有L2正则化的线性回归-岭回归岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候...原创 2019-03-21 09:07:36 · 427 阅读 · 0 评论 -
机器学习全套教程(十五)-- 欠拟合与过拟合
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn欠拟合与过拟合学习目标目标 说明线性回归(不带正则化)的缺点 说明过拟合与欠拟合的原因以及解决方法 应用 无 问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。1、 什么是过...原创 2019-03-21 09:06:54 · 575 阅读 · 0 评论 -
机器学习全套教程(十四)-- 线性回归
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn线性回归学习目标目标 记忆线性回归的原理过程 应用LinearRegression或SGDRegressor实现回归预测 记忆回归算法的评估标准及其公式 应用 波士顿房价预测 回忆一下回归问题的判定是什么?1、 线性回归的原理1.1 线性回归应用场...原创 2019-03-21 09:06:25 · 677 阅读 · 0 评论 -
机器学习全套教程(十三)-- 集成学习方法之随机森林
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn集成学习方法之随机森林学习目标目标 说名随机森林每棵决策树的建立过程 知道为什么需要随机有放回(Bootstrap)的抽样 说明随机森林的超参数 应用 泰坦尼克号乘客生存预测 1、 什么是集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它...原创 2019-03-21 09:05:45 · 462 阅读 · 0 评论 -
机器学习全套教程(十二)-- 决策树
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn决策树学习目标目标 说明信息熵的公式以及作用 说明信息增益的公式作用 应用信息增益实现计算特征的不确定性减少程度 了解决策树的三种算法实现 应用 泰坦尼克号乘客生存预测 1、认识决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-th...原创 2019-03-21 09:05:18 · 606 阅读 · 0 评论 -
python数据分析与挖掘(十九)--- Pandas文件读取与存储
Python教程网 >>:www.python88.cn文件读取与存储我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。注:最常用的HDF5和CSV文件1 CSV1 读取csv文件-read_csv()pandas.read_csv(filepa...原创 2019-01-27 15:00:23 · 792 阅读 · 0 评论 -
python数据分析与挖掘(十八)--- Pandas画图
Python教程网 >>:www.python88.cn1 pandas.DataFrame.plot DataFrame.plot(x=None, y=None, kind='line') x : label or position, default None y : label, position or list of label, positions, de...原创 2019-01-27 14:59:05 · 326 阅读 · 0 评论 -
Python数据分析与挖掘(二)--- matplotlib
Python教程网 >>:www.python88.cn1. 什么是Matplotlib专门用于开发2D图表(包括3D图表)使用起来及其简单以渐进、交互式方式实现数据可视化2 为什么要学习Matplotlib可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。能将数据进行可视化,更直观的呈现 使数据更加客观、更具说服力例如...原创 2019-01-26 22:37:49 · 260 阅读 · 0 评论 -
Python数据分析与挖掘(一)---jupyter Notebook
相关库的安装:pip install pandaspip install numpy pip install matplotlibpip install sklearn1 Jupyter Notebook介绍Jupyter项目是一个非盈利的开源项目,源于2014年的ipython项目,并逐渐发展为支持跨所有编程语言的交互式数据科学计算的工具。Jupyter Notebook,原...原创 2019-01-26 22:31:14 · 3622 阅读 · 0 评论 -
机器学习实战--酒店情感分析分类
数据集:正面评价:2000_pos.txt商务大床房,房间很大,床有2M宽,整体感觉经济实惠不错!早餐太差,无论去多少人,那边也不加食品的。酒店应该重视一下这个问题了。宾馆在小街道上,不大好找,但还好北京热心同胞很多~前台 楼层服务员都不错,房间安静整洁,交通方便,吃的周围也挺多.唯一不足,卫生间地漏设计不好,导致少量积水.这次去北京,是要去北师大办事,所以特意留意了下附近的宾馆。住了...原创 2018-11-11 15:18:39 · 6100 阅读 · 1 评论 -
数据分析系列教程之numpy(二)
1、numpy读取数据 创建了一个test.csv文件,输入了2列数据 np.loadtxt方法读取数据,参数分别为文件路径、分隔符、数据类型,常见的数据类型,可以有int,float,但是每种细分的话还有很多,csv文件是属于逗号分隔符文格式的文件 细分的数据类型 如果加一个参数unpack=1,则相当于转置,原始数据的行变成我们读取后的列,原始数据的列变成读取后的行,unp...原创 2018-08-01 01:28:44 · 461 阅读 · 0 评论 -
数据分析系列教程之numpy(一)
很多同学期待很久的数据分析教程,今天开始正式启动,不过说实话,个人觉得数据分析没有web和爬虫有意思,天天跟数据打交道,其实也很枯燥,不过学习数据分析对很多工作是很有帮助的,比如爬虫,爬下来的数据我们需要怎么处理,清洗,去重等等,这些属于很常见的工作需求,而这些需求,就和数据分析密不可分。该系列教程,会着重讲工作实际应用中用的比较多的一些功能和知识点,以在最短时间,让大家最高效的掌握知识点...原创 2018-08-01 01:23:00 · 468 阅读 · 0 评论 -
沃保网爬虫(九)--requests爬虫升级为scrapy爬虫
1、requests爬虫升级为scrapy爬虫:2、start_requests:构造requests对象,包含请求url、请求方式、请求参数3、判断页码,构造下一页请求参数,主要是构造页面,请求下一页数据4、请求详情页资格证号,并返回5、返回资格证号,并yield返回6、数据的处理,pipline,item_key是redis中的集合名词7、加密字段在redis集合中的保存形式显示所有key :...原创 2018-05-13 16:52:58 · 572 阅读 · 0 评论 -
沃保网爬虫(八)-读取csv保存mysql
10条csv数据构造[{},{},{}****]数据结构,列表是所有样本,字典是每个样本通过参数化方法将每个字典数据,也就是每个样本写入mysql检测:成功保存数据更多文章,请关注微信公众号...原创 2018-05-12 11:51:26 · 313 阅读 · 0 评论 -
沃保网爬虫(五)--利用pandas 2行代码保存csv文件
python语言在数据分析有很多优势,特别方便,当然离不开很多优秀的库,本文讲述pandas方便的保存数据为csv文件,你可以不会用这个库,但是我今天讲的方法大家记忆下,很好用,再没有基础也能学会,后期教程这些都会更深入讲的1、我构造了一个cont_list,结构为列表嵌套字典,字典是每一个样本,类似于我们爬虫爬下来的数据的结构2、利用pd.DataFrame方法先将数据转换成一个二维结构数据,如...原创 2018-05-09 10:33:41 · 6924 阅读 · 1 评论 -
Python数据分析与挖掘(三)---matplotlib折线图
Python教程网 >>:www.python88.cn折线图绘制与保存图片为了更好地理解所有基础绘图功能,我们通过天气温度变化的绘图来融合所有的基础API使用1 matplotlib.pyplot模块matplotlib.pytplot包含了一系列类似于matlab的画图函数。 它的函数作用于当前图形(figure)的当前坐标系(axes)。import m...原创 2019-01-26 22:41:21 · 1509 阅读 · 0 评论 -
Python数据分析与挖掘(五)---matplotlib柱状图
Python教程网 >>:www.python88.cn柱状图(bar)1 柱状图绘制需求1-对比每部电影的票房收入电影数据如下图所示:1 准备数据['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴', '降魔传','追捕','七十七天','密战','狂兽','其它'][73853,57767,22354,1...原创 2019-01-26 22:49:56 · 1272 阅读 · 0 评论 -
python数据分析与挖掘(六)--- matplotlib直方图
Python教程网 >>:www.python88.cn直方图(histogram)1 直方图介绍直方图,形状类似柱状图却有着与柱状图完全不同的含义。直方图牵涉统计学的概念,首先要对数据进行分组,然后统计每个分组内数据元的数量。 在坐标系中,横轴标出每个组的端点,纵轴表示频数,每个矩形的高代表对应的频数,称这样的统计图为频数分布直方图。相关概念:组数:在统计数据...原创 2019-01-26 22:51:37 · 571 阅读 · 0 评论 -
python数据分析与挖掘(十七)--- Pandas DataFrame运算
Python教程网 >>:www.python88.cn1 算术运算add(other)比如进行数学运算加上具体的一个数字data['open'].add(1)2018-02-27 24.532018-02-26 23.802018-02-23 23.882018-02-22 23.252018-02-14 22.49...原创 2019-01-27 14:58:03 · 784 阅读 · 0 评论 -
python数据分析与挖掘(十六)--- Pandas基本数据操作
Python教程网 >>:www.python88.cn为了更好的理解这些基本操作,我们将读取一个真实的股票数据。关于文件操作,后面在介绍,这里只先用一下API# 读取文件data = pd.read_csv("./stock_day/stock_day.csv")# 删除一些列,让数据更简单些,再去做后面的操作data = data.drop(["ma5","m...原创 2019-01-27 14:56:50 · 619 阅读 · 0 评论 -
python数据分析与挖掘(十五)---Pandas介绍
Python教程网 >>:www.python88.cn1 Pandas介绍2008年WesMcKinney开发出的库 专门用于数据挖掘的开源python库 以Numpy为基础,借力Numpy模块在计算方面性能高的优势 基于matplotlib,能够简便的画图 独特的数据结构2 为什么使用PandasNumpy已经能够帮助我们处理数据,能够结合matplo...原创 2019-01-27 14:55:00 · 455 阅读 · 0 评论