数据分析
文章平均质量分 73
htbeker
毕业论文、课程设计、数据分析、数据挖掘、机器学习培训。
展开
-
你们都是怎么学 Python 的?
无意中听我们院长大人说:Python是一门神奇的语言,在此之前我已经对C/C++/Java等几门语言有了一定得了解和掌握,并做过一些小项目。学习Python大致可以分为以下几个阶段:1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Python 简介 | 菜鸟教程如果你想简单点,我把我自己的学习经验总结成了一本Python以及爬虫电子书,保证非常的通俗易懂帮助你学会Python,目前这本原创 2021-03-15 20:18:11 · 312 阅读 · 0 评论 -
Pandas中DataFrame数据合并、连接(concat、merge、join)
最近在工作中,遇到了数据合并、连接的问题,故整理如下,供需要者参考~一、concat:沿着一条轴,将多个对象堆叠到一起concat方法相当于数据库中的全连接(union all),它不仅可以指定连接的方式(outer join或inner join)还可以指定按照某个轴进行连接。与数据库不同的是,它不会去重,但是可以使用drop_duplicates方法达到去重的效果。concat(objs, axis=0, join='outer', join_axes=None, ignore...原创 2021-03-13 22:45:46 · 1756 阅读 · 0 评论 -
pandas的连接函数concat()函数
完整代码扫描下方二维码或微信搜索【有酒有风】回复【pandas】获取。:参数含义objs:Series,DataFrame或Panel对象的序列或映射。如果传递了dict,则排序的键将用作键参数,除非它被传递,在这种情况下,将选择值(见下文)。任何无对象将被静默删除,除非它们都是无,在这种情况下将引发一个ValueError。axis:{0,1,...},默认为0。沿着连接的轴。join:{'inner','outer'},默认为“outer”。如何处理其他轴上的索引。outer为联合和in原创 2021-03-13 22:41:19 · 182 阅读 · 0 评论 -
hive获取今天/明天/昨天时间
一、获取今天时间select FROM_UNIXTIME(UNIX_TIMESTAMP()) date二、获取明天时间select regexp_replace(substr(date_add(FROM_UNIXTIME(UNIX_TIMESTAMP()),1),1,10),'-','') date可以通过date_add函数获取今天开始后n天的时间三、获取昨天时...原创 2019-06-04 19:13:58 · 30482 阅读 · 3 评论 -
hive中case..when和row_number()的使用
一、case..when将列值进行条件筛选和转换。select sex,case when sex = 1 then 'man' when sex = 2 then 'woman'when sex = 3 then 'secret'else 'other' end SEXfrom big_data.big_data结果如下:将sex列中数据做了相应转换。二、ro...原创 2019-06-03 19:33:51 · 2905 阅读 · 0 评论 -
pandas分批读取大数据集
如果你的电脑内存较小那么想在本地做一些事情是很有局限性的(哭丧脸),比如想拿一个kaggle上面的竞赛来练练手,你会发现多数训练数据集都是大几G或者几十G的,自己那小破电脑根本跑不起来。行,你有8000w条样本你牛逼,我就取400w条出来跑跑总行了吧(狡滑脸)。下图是2015年kaggle上一个CTR预估比赛的数据集:看到train了吧,原始数据集6个G,特征工程后得多大?那我就取40...原创 2019-01-18 17:53:22 · 23659 阅读 · 5 评论 -
python将字典转换成dataframe数据框
需要将字典转换成dataframe来操作,并且将字典的key,value分别作为dataframe两列。数据样例如下:一个key只有一个value的字典如果直接转化成数据框会报错:如下两种方法可达成目标。一,将字典转换成Series,将Series转换成dataframe,并将dataframe的索引设为id列。二,使用pd.DataFrame.from_dict方...原创 2018-12-17 18:13:54 · 66090 阅读 · 2 评论 -
pandas中根据列的值选取多行数据
在excel或Mysql中经常会用到多列条件查询或筛选,下面一起来看看pandas怎么实现这一功能。原创 2018-05-16 09:29:57 · 89719 阅读 · 1 评论 -
matplotlib作图坐标轴不能显示中文
如下图横坐标没有显示正确的球星名字,那是因为matplotlib库里没有中文字体 添加代码: from pylab import * mpl.rcParams[‘font.sans-serif’] = [‘SimHei’] 后即可正确显示 ...原创 2018-05-17 18:20:27 · 16486 阅读 · 13 评论 -
pandas.DataFrame删除某列空值所在的行
假设拿到一个10万行的数据后,通过isnull我们发现某列有几个空值,要把该列空值所在行删除怎么操作?用dropna()会删除所有有空值的行,请看下面实例。 ...原创 2018-04-24 22:31:32 · 97072 阅读 · 4 评论 -
爬虫学习-今天我爬了电影天堂
原创 2018-01-24 21:27:37 · 1159 阅读 · 4 评论 -
爬虫学习-爬取校花网美图
import requestsimport refrom urllib import requestfor n in range(15): a_url = 'http://www.xiaohuar.com/list-1-'+str(n)+'.html' html_1 = requests.get(a_url) html_1.encoding = 'gb2312' #prin...原创 2018-01-24 21:12:14 · 766 阅读 · 0 评论 -
pandas.DataFrame中删除包涵特定字符串所在的行
你在使用pandas处理DataFrame中是否遇到过如下这类问题?我们需要删除某一列所有元素中含有固定字符元素所在的行,比如下面的例子:如果要删除的元素固定有更简单的方法,可参考另一篇博文:http://blog.csdn.net/htbeker/article/details/79427628...原创 2018-03-21 21:02:03 · 53601 阅读 · 10 评论 -
使用python批量处理excel
看看结果:原创 2018-03-24 18:02:50 · 28633 阅读 · 5 评论 -
Pandas读取路径或文件名称包含中文的文件时报错及解决办法
关注微信公众号“H君聊人生”一起成长:H君聊人生原创 2018-03-18 01:14:17 · 4253 阅读 · 0 评论 -
pandas 删除指定行
在处理pandas的DataFrame中,如果想像excel那样筛选,只要其中的某一行或者几行,可以使用isin()方法来实现,只需要将需要的行值以列表方式传入即可,还可传入字典,进行指定筛选。但是如果我们只想要所有内容中不包含特定行的内容,却并没有一个isnotin()方法,经常查找之后,发现只能换种方式使用isin()来实现这个需求。pandas.DataFrame中删除包涵特定字符串所在的行...原创 2018-03-03 00:18:13 · 93338 阅读 · 5 评论 -
pandas DataFrame 中按条件筛选或去重后重新定义连续的index
在DataFrame中进行条件筛选或者去重后index将变得不连续,那么如何重设连续的index?转载请注明:【转】http://blog.csdn.net/htbeker/article/details/79417959原创 2018-03-01 23:18:49 · 16530 阅读 · 1 评论