python
文章平均质量分 57
Just_do_it_2018
这个作者很懒,什么都没留下…
展开
-
"module 'pip' has no attribute 'main'"&"name pip is not defined"
起因: 之前安装了pymongo用来存储爬取的数据,后来想尝试用Python操作MySQL,于是需要安装pymysql的包,结果总是提示我的pip版本问题,我就索性更新了pip。结果,pip更新之后,接下来所有的包的安装都提示标题中的错误:AttributeError: module ‘pip’ has no attribute ‘main’,以下是解决方案:环境: Mac os系统/pyth...原创 2018-05-18 22:34:49 · 3060 阅读 · 0 评论 -
OSError: Initializing from file failed
问题场景: 在用pandas的read_csv函数直接读取批量的包含中文名的CSV文件时,发生如下错误: 问题原因: 1、文件名包含中文名; 2、传入参数是文件路径而非文件名解决方案: 解决方案有两种: 1、在read_csv之前先用open函数f = open('人效日报-20180701.csv')data = pd.read_csv(f,skiprows=1,hea...原创 2018-08-02 15:56:09 · 11087 阅读 · 3 评论 -
python运用DBSCAN算法对坐标点进行离群点检测&dataframe的append问题
问题描述(关于dataframe的append问题,直接拖至文后)我们有n多单车,每个单车一段时间(差不多一个星期)规律返回的经纬度位置数据,类似于下图,但是有个问题是单车的这些经纬度数据的准确性只有70%左右,不准确的经纬度会出现偏差,我们要做的就是去掉那些噪音比较大的坐标点,筛选出正确位置从而进行之后的操作。 解决方案DBSCAN算法简介操作源码小收获&小总...原创 2018-07-23 18:03:18 · 9930 阅读 · 6 评论 -
python中的filter、map、reduce、apply用法总结
这几个函数在平时使用时不能立即想起来,而且它们之间区别不清,借该文做个总结。OUTLINEfiltermapreduceapply 总结filter功能: filter的功能是过滤掉序列中不符合函数条件的元素,当序列中要删减的元素可以用某些函数描述时,就应该想起filter函数。 调用: filter(function,sequence),function可以是匿名函...原创 2018-06-09 16:19:42 · 19182 阅读 · 4 评论 -
交叉验证——对数据集的划分
写在前面:为什么划分数据集? 以我们的比赛为例,赛方提供有标签的训练数据和无标签的测试数据,要求我们提交测试数据的预测标签值,如果我们不划分数据集,直接用所有的数据进行训练,最后直接对无标签的测试数据预测,我们很难预测我们模型的好坏。以我的理解来看,对于数据集划分形成的验证集,相当于是平时学习中的小考,而测试数据可以看成是期末考或者高考,我们想通过数据集的划分,在验证集上达到评估我们学习能...原创 2018-06-07 20:19:36 · 14298 阅读 · 1 评论 -
pandas将日期转换成timestamp
OUTLINE常见的时间字符串与timestamp之间的转换日期与timestamp之间的转换常见的时间字符串与timestamp之间的转换这里说的字符串不是一般意义上的字符串,是指在读取日期类型的数据时,如果还没有及时解析字符串,它就还不是日期类型,那么此时的字符串该怎么与时间戳之间进行转换呢?① 时间字符串转化成时间戳 将时间字符串转化成时间戳分为两步: 第一步:...原创 2018-06-14 14:29:59 · 42004 阅读 · 7 评论 -
主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]
(本文为转载)摘要最近打各种比赛,在这里分享一些General Model,稍微改改就能用的环境: python 3.5.2XGBoost调参大全: http://blog.csdn.net/han_xiaoyang/article/details/52665396 XGBoost 官方API: http://xgboost.readthedocs.io/en/latest...转载 2018-06-07 10:24:02 · 1631 阅读 · 0 评论 -
python爬虫资料汇总
1、崔应才老师的博客 里面包含四个系列:爬虫入门、爬虫实战、爬虫利器和爬虫进阶。 最棒的是里面对各个爬虫相关的库做了详细的介绍。2、天善学院崔老师的课程:爬虫三大案例实战 里面包含三个案例: 分析Ajax抓取今日头条街拍美图 Requests+正则表达式抓取猫眼电影TOP100 Selenium+Chrome/PhantomJS抓取淘宝美食3、麻瓜编程爬虫相关视频和作业,网盘密...原创 2018-06-07 09:59:47 · 842 阅读 · 0 评论 -
pandas去除重复列
OUTLINE数据准备问题描述解决方案数据准备假设我们目前有两个数据表: ① 一个数据表是关于三个人他们的id以及其他的几列属性信息import pandas as pdimport numpy as npdata = pd.DataFrame(np.random.randint(low=1,high=20,size=(3,4)))data['id'] = ra...原创 2018-06-13 11:17:37 · 27768 阅读 · 1 评论 -
Python中的groupby分组
写在前面:之前我对于groupby一直都小看了,而且感觉理解得不彻底,虽然在另外一篇文章中也提到groupby的用法,但是这篇文章想着重地分析一下,并能从自己的角度分析一下groupby这个好东西~OUTLINE根据表本身的某一列或多列内容进行分组聚合通过字典或者Series进行分组根据表本身的某一列或多列内容进行分组聚合这个是groupby的最常见操作,根据...原创 2018-06-05 21:02:03 · 117231 阅读 · 11 评论 -
Python中随机数的生成
在Python中可以用于随机数生成的有两种主要途径,一是random模块,另一个是numpy库中random函数。OUTLINErandom模块numpy中的random函数总结random模块random模块中将近有7个函数都是可以用来生成随机数的:① random.random() 功能:随机生成一个 [0,1) 的浮点数 用法:import rando...原创 2018-06-05 16:50:42 · 124870 阅读 · 9 评论 -
pandas如何将相同ID的字符串进行合并
写在前面:说来真的很巧,先是有个人在一个qq比赛群里扔了这个问题,我觉得很有意思,然后自己尝试了下,就将自己写的一段代码发给了他。事后,在一个微信公众号的推文里,看到这篇文章数据城堡参赛代码实战篇(三)—我们来探究一个深奥的问题!里面给了一些大神对同样问题的解法,瞬间觉得自己很菜鸡,把大神的和自己做个对比,提醒自己对于pandas的使用不能仅仅停留于表面,还有更多优化简洁的处理方式需要学习!...原创 2018-05-24 15:47:34 · 29674 阅读 · 11 评论 -
python的去重以及数据合并的用法
OUTLINE:drop_dupicatesmergedrop_dupicates参数含义: subset:即表示要去重指定参考的列 keep : {‘first’, ‘last’, False}, default ‘first’ inplace:boolean, default False, 直接在原来的数据上修改还是保留副本data = pd.DataFram...原创 2018-05-24 10:00:59 · 7943 阅读 · 0 评论 -
diff函数
OUTLINE问题场景解决方案问题场景假设我有一份操作日志数据,其中一个特征是操作app的时间,时间结构譬如“2018-03-13 23:26:19”,我想知道上一次操作跟下一次操作的间隔时间是多少? 解决方案关于某列或者某行数据的差分自然要想到python中的diff函数,无论是在pandas中还是在numpy里面都可以直接调用。在numpy中: 调用方...原创 2018-06-11 16:15:41 · 45044 阅读 · 3 评论 -
pandas的groupby以及pivot_table用法——以计算恩格尔系数为例
数据:来源于Datacastle上的大学生资助预测竞赛中的数据,点此百度网盘获取,密码为cdtb。 注:只用到竞赛中的一卡通数据数据描述: 一共有一万多条数据,800多兆,共七个字段,分别是: 【学生ID,消费类别,消费地点,消费方式,消费时间,消费金额,剩余金额】 Task: 根据该数据,得到如下格式: solution1: groupby() data = pd.r...原创 2018-05-23 17:51:18 · 2715 阅读 · 0 评论 -
Pandas两种主要的数据结构
OUTLINESeriespandaspandas中的数据结构主要包括两种,一种是Series,一种是dataframe。 SeriesSeries表示一维数据,可以简单理解为一个向量,但是不同于向量的是,Series会自动为这一维数据创建行索引。① 创建Seriesimport pandas as pdseries_obj = pd.Series(['a'...原创 2018-05-23 16:53:43 · 8586 阅读 · 0 评论 -
用Python实现一个微信机器人
OUTLINE:所需环境实现代码 所需环境 Python 3.5.3,pycharm professional版,预安装”wxpy”包方法一:电脑终端中 pip3 install wxpy方法二:在file –> default setting –> 如下界面中的“+”号 –> 搜索“wxpy”进行安装: 实现代码 其实,它的流程很简单: ...原创 2018-05-20 22:29:18 · 1441 阅读 · 0 评论 -
pandas读取中文文件的UnicodeDecodeError编码问题汇总
Outline批量处理文件获取文件编码不能decode bytes …python的异常处理read_csv中的error_bad_line参数小感批量处理文件为了批量处理文件,当然是想办法获取文件名,通过文件名形成文件路径从而批处理文件。 我以前绕过大弯,根据文件的命名规律,尤其是其中的数字递增规律来创建路径,自从发现os库里的listdir函数才知道自己有多蠢!...原创 2018-08-02 16:57:03 · 20683 阅读 · 0 评论