- 博客(28)
- 收藏
- 关注
原创 SQL 面试题练习
用一条SQL 语句 查询出每门课都大于80 分的学生姓名nameclassscore张三语文81张三数学75李四语文76李四数学90王五语文81王五数学100王五英语90答案 1:使用子查询,先选择分数小于等于 80 分的学生姓名,只要姓名不在这里面的,就每门课程都大于 80 分SELECT D...
2019-10-25 15:50:12 458
原创 数据分析与挖掘:电商产品评论数据情感分析
项目为《Python 数据分析与挖掘实战》第 15 章:电商产品评论数据情感分析。参考了书中的源代码,并补充了机械压缩去词实现。
2019-10-07 15:48:17 4014
原创 数据分析与挖掘:基于基站定位数据的商圈分析
项目为《Python 数据分析与挖掘实战》第 14 章:基于基站定位数据的商圈分析。内容参考了书中源代码,由于随书资料里只有经过部分处理的数据,因此对于属性构造部分省略,主要为聚类算法部分内容。
2019-10-07 15:23:15 1944
原创 数据分析与挖掘:财政收入影响因素分析及预测模型
项目为《Python 数据分析与挖掘实战》第 13 章:财政收入影响因素分析及预测模型。项目实现了因变量的筛选,阐述了灰色预测原理计算过程,实现了灰色预测和神经网络的结合模型。
2019-10-07 12:27:53 9213
原创 数据分析与挖掘:电力窃漏电用户自动识别
完成了拉格朗日插值法、LM 神经网络的模型构建、CART 决策树的模型构建、两种模型的性能评价。最后对拓展项目进行了探索建模,使用 CART 决策树得出了 100% 的正确率,不过由于数据量较少,正确率仅供参考
2019-10-06 17:21:07 2116 1
原创 数据分析与挖掘:热水器用户行为分析与事件识别
项目为《Python 数据分析与挖掘实战》第 10 章:家用电器用户行为分析与事件识别。书中给出了原始数据,以及各项属性的构建说明及公式,但并没有给出属性构建的实现方法以及代码。本文根据书中的原始数据和属性构造说明,利用 Python 进行数据处理,构造各种属性,然后根据各项属性进行事件识别
2019-09-23 14:45:33 5490 2
原创 利用 Python 分析城市各区域楼盘
通过爬取某房产网站,得到某城市各楼盘的一些基本信息,包括楼盘名称,楼盘区域,参考价格等等。然后利用 Pandas, Numpy, matplotlib 等库进行数据分析及可视化
2019-08-27 14:29:12 994
原创 高阶 Pandas
Pandas 的高阶用法,主要包含分类对象 Categorical,groupby 的“展开” 方法 transform ,分组时间重采样用到的 TimeGrouper 对象
2019-08-13 11:01:20 596
原创 Python 数据分析:时间序列
时间序列数据在很多领域都是重要的结构化数据形式。在多个时间点观测或测量的数据形成了时间序列。本文主要学习如下三种标记和引用时间序列数据的方法:- 时间戳:即具体的时刻- 固定的时间区间:如 2018 年的 2 月或整个 2018 年- 时间间隔:由开始和结束的时间戳表示。时间区间可以视为时间间隔的特殊情况
2019-08-12 16:09:43 987
原创 数据聚合和分组操作
对数据集进行分类,并在每一组上应用一个聚合函数或转换函数1. 使用一个或多个键(以函数、数组或 DataFrame 列名的形式)将 pandas 对象拆分为多块2. 计算组汇总统计信息,如计数、平均值或标准偏差或用户定义的函数3. 应用组内变换或其他操作,如标准化、线性回归、排位或子集选择4. 计算数据透视表和交叉表5. 执行分位数分析和其他统计组分析
2019-08-09 18:13:47 4716
原创 爬虫学习:解析库的使用
使用正则表达式提取网页页面信息略显繁琐。对一个网页的节点来说,具有 id 和 class 等属性,并且节点之间还有层次关系,因此我们可以通过 XPath 或 CSS 选择器来提取节点,再获取其正文内容或者属性。本文主要学习 lxml,Beautiful Soup,pyquery 等 3 个解析库
2019-08-03 16:41:54 418
原创 数据规整:连接、联合与重塑
主要包含 pandas 中的分层索引概念,以及特定的数据操作1. 分层索引1.1 分层索引简单介绍1.2 重排序和层级排序1.3 按层级进行汇总统计1.4 使用 DataFrame 的列进行索引2. 联合与合并数据集2.1 数据库风格的 DataFrame 连接——merge2.2 根据索引合并2.3 沿轴向连接8.2.4 联合重叠数据8.3 重塑和透视8.3.1 使用多层索引进行重塑8.3.2 ...
2019-07-24 15:50:05 365
原创 数据清洗与准备
数据清洗与准备1. 处理缺失值1.1 过滤缺失值——dropna1.2 补全缺失值——fillna2. 数据转换2.1 删除重复值2.2 使用函数或者映射进行数据转换——map2.3 替代值——replace2.4 重命名索引2.5 离散化和分箱——cut & qcut1. 处理缺失值缺失值:np.nan;None;1.1 过滤缺失值——dropnaSeries 对象:fro...
2019-07-22 22:16:03 286
原创 pandas 数据载入、存储及文件格式
数据载入、存储及文件格式1. 文本格式数据的读写1. 文本格式数据的读写将表格型数据读取为 DataFrame 的 pandas 解析函数:函数描述read_csv从文件、URL或文件型对象读取分隔好的数据,逗号是默认分隔符read_table从文件、URL或文件型对象读取分隔好的数据,制表符(’\t’)是默认分隔符read_fwf从特定宽度格式的文件中...
2019-07-15 22:32:32 1138
原创 pandas入门
pandas 入门1. pandas 数据结构介绍1.1 Series1.2 DataFrame1.3 索引对象2. 基本功能2.1 重建索引: reindex2.2 轴向上删除条目: drop2.3 索引、选择与过滤2.4 整数索引2.5 算术和数据对齐2.6 函数应用和映射2.7 排序和排名2.8 含有重复标签的轴索引3. 描述性统计的概述与计算3.1 相关性和协方差3.2 唯一值、计数和成员...
2019-07-13 23:00:41 191
原创 NumPy基础
NumPy 基础主要内容:主要内容:ndarray:一种高效多维数组,具有基于数组的便捷算术操作以及灵活的广播功能;对所有数据进行快速的矩阵运算,无序编写循环程序;对硬盘中的数组数据进行读写的工具,并对内存映射文件进行操作;线性代数、随机数生成以及傅里叶变换功能;用于连接 NumPy 到 C、C++ 和 FORTRAN 语言类库的 C 语言 API;...
2019-07-07 22:20:43 247
原创 Python 数据分析基础知识部分
Python 数据分析基础知识部分1. Python语言基础、IPython 及 Jupyter notebook1.1 Jupyter notebook1.2 Python 语言基础1.2.1 语言语义1.2.2 标量类型1.2.3 控制流2. 内建数据结构、函数及文件2.1 数据结构和序列2.1.1 元组2.1.2 列表2.1.3 内建序列函数2.1.4 字典2.1.5 集合2.1.6 列表、...
2019-06-26 23:27:54 381
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人