数据分析与挖掘
文章平均质量分 78
lfhyon
人生苦短,ing~
展开
-
数据分析基础(1)
PYTHON常见数据结构:list、tuple、dict、set-list:--增list.append(str)#用于在列表末尾追加新的对象list.extend(list)#用于在列表末尾追加新的序列--统计list.count(某个元素)#统计列表中某个元素数量list.index(某个元素)#找出某个元素的索引值--插、删list.insert(转载 2017-12-06 20:03:07 · 327 阅读 · 0 评论 -
数据分析(2)
缺失值处理-使用reindex()可以改变指定轴上的索引进行改变/增加/删除操作如:df1=df.reindex(index=dates[0:4],colimn=list(df.column)+['E'])-去掉包含缺失值的行,不改变原来的值df1.dropna(how='any')-对缺失值进行填充df1.fillna(value=5)-对数据进行布尔填充pd转载 2017-12-06 21:23:09 · 276 阅读 · 0 评论 -
数据分析(3)-数据清洗
转载于:点击打开链接数据因为存在数据错误,数据缺失,离群值的存在,所以需要对数据进行清洗1.数据错误:错误类型– 脏数据或错误数据• 比如, Age = -2003– 数据不正确• ‘0’ 代表真实的0,还是代表缺失– 数据不一致• 比如收入单位是万元,利润单位是元,或者一个单位是美元,一个是人民币– 数据重复2.缺失值处理:转载 2017-12-06 22:03:59 · 978 阅读 · 0 评论 -
用图挖掘找到感兴趣的人(1)
对Twitter进行数据收集:原创 2018-01-18 14:20:32 · 667 阅读 · 0 评论 -
数据分析(4)
数据质量分析:主要针对缺失值、异常值、不一致的值、重复数据以及含有特殊符号异常值的查明箱型图统计利用箱型图对数据异常值进行查明import ospath=os.path.abspath('.')#当前所处文件夹的绝对路径import pandas as pdcatering_sale = './data/catering_sale.xls' #餐饮数据data = pd.read_exce转载 2018-01-18 14:38:49 · 733 阅读 · 0 评论 -
数据分析(5)-数据清洗
数据清洗:1缺失值处理此处缺失值处理主要有-均值\中位数\众数插补、使用固定值、最近临插补、回归方法、插值法下面主要介绍“拉格朗日插值法“与“牛顿插值法”(1)拉格朗日插值法根据数学知识可知,对于平面上已知的n个点可以找到一个n-1次多项式,满足n各点的代入,解出拉格朗日插值多项式,代入缺失值处的x,求出缺失值的Y值(2)牛顿插值法方式雷同用拉格朗日法进行补值:转载 2018-01-28 17:10:21 · 4851 阅读 · 0 评论 -
数据分析(6)-挖掘建模
分类与预测1常见的分类与预测算法(1)回归分析逻辑回归模型:逻辑回归模型建模步骤:逻辑回归代码:#如下可运用于根据特征来判断违约情况等import pandas as pd#提取数据filename= './data/bankloan.xls'data=pd.read_excel(filename)x=data.iloc[:,:8].as_matrix()y=data.iloc[:,8...转载 2018-02-09 11:40:28 · 1428 阅读 · 0 评论 -
数据分析(7)-挖掘建模#分类模型特征
python 分类预测模型特点1 聚类分析(1)K-Means聚类算法-数据类型与相似性的度量 对于连续属性,通常将其进行零-均值规范,再进行距离计算度量样本之间的相似性最常用的是欧几里得距离、曼哈顿距离等--针对文档数据将文档数据整理成文档-词矩阵格式,相似度为:-目标函数使用误差平方与SSE作为度量聚类质量的目标函数,选择聚类结果最小的#K为聚类簇的个数;ei为簇Ei的聚类中心;Ei为第...转载 2018-03-15 15:48:18 · 1548 阅读 · 1 评论 -
数据分析(8)-漏电用户的判断
-分析方法与过程(1)从电力计量自动化系统、营销系统有选择的抽取大部分用户用电负荷、终端报警及违约窃电处罚信息等原始数据(2)对样本数据探索分析,剔除不可能存在的窃漏电行为行业的用户,即白名单用户,初步审视正常用户与窃漏电用户的用电特点(3)对样本数据进行预处理,包括数据清洗、缺失值处理及数据变换(4)构建专家样本集(5)构建窃漏电用户识别模型(6)在线检测用户用电电荷及终端报警,调用模型进行实现...转载 2018-03-19 20:18:36 · 1010 阅读 · 0 评论