Python
、 ♥ 盖世英雄
这个作者很懒,什么都没留下…
展开
-
数据分析
数据分析基本概念明确思路→数据收集《分布式爬虫实战》→数据处理→数据分析→数据展现常用的收集途径: 公开信息,外部数据库,自有数据库,调查问卷,客户数据数据清洗: 可读性,完整性,唯一性,权威性及合法性常见的数据类型1,类别型数据 (1)取值种类 (2)每类取值的分布2,数值型变量 (1)极值和分位点 (2)均值和标准差 (3)变量间相关性3,通用...原创 2019-07-18 10:59:23 · 206 阅读 · 0 评论 -
python推导式
列表推导式写一个列表:squares = []for x in range(10):squares.append(x2)print(squares)用推导式优化后:squares = []squares = [x2 for x in range(10)]或者squar = map(lambda x:x2,range(10))注:第一个参数function是一个函数,第二个参...原创 2019-07-18 19:36:39 · 138 阅读 · 0 评论 -
数据加载,存储与文件格式(非完整版)
读取文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数其中read_csv和read_table用的比较多pandas中的解析函数函数说明read_csv从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号read_table从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符(“\t”)...原创 2019-08-30 23:17:58 · 199 阅读 · 0 评论 -
数据分析的三个机器学习算法
数据分析的三个机器学习算法knn算法(邻近算法)采用测量不同特征值之间的距离方法进行分类优点:精度高,对异常值不敏感,无数据输入假定。缺点:时间复杂度高,空间复杂度高。1、当样本不平衡时,比如一个类的样本容量很大,其他类的样本容量很小,输入一个样本的时候,K个临近值中大多数都是大样本容量的那个类,这时可能就会导致分类错误。改进方法是对K临近点进行加权,也就是距离近的点的权值大,距离远的点...原创 2019-09-26 20:20:33 · 1538 阅读 · 0 评论