自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大邓和他的Python

内容涵盖python爬虫、文本数据编码、(文本)数据分析、金融量化、机器学习和深度学习

  • 博客(31)
  • 资源 (4)
  • 收藏
  • 关注

转载 用Python和Tableau对母婴商品销量进行数据分析(附Python源码及Tableau文件)

为减少篇幅,本文将尽量少的配上源码,在文末提供的源码文件中已经有详细注释。本案例结合Python和Tableau,由于数据量及维度较少,所以更多的是使用Tableau进行可视化处理。项目...

2020-04-30 09:00:00 565

转载 [转载]如何利用Social Listening从社会化媒体中“提炼”有价值的信息?

俗话说的好,“巧妇难为无米之炊”,数据分析的第一步就是获取数据,那么,我们做分析的数据究竟从何而来呢?这是我们进行social listening和语义分析的起点。没有和外部数据进行关联...

2020-04-28 17:36:23 312

原创 Numpy和Pandas性能改善的方法和技巧

问题设计的代码能hold住小规模数据你准备将该代码用来处理真实场景的数据但惊喜的是你的代码崩溃了问题: 你的电脑只有16G内存,但现在却要应付50G大小的数据。硬件解决办法换装备,比如6...

2020-04-26 13:38:26 1094

原创 如何计算出文本数据的相似矩阵?

今天要计算texts中两两文本计算相似性,生成texts对应的相似矩阵。我们需要先将text转为为向量,texts转化后就是文档-词频矩阵。texts=['吃着火锅唱着歌,突...

2020-04-25 12:19:41 1388

原创 Wow~70G上市公司定期报告数据集

70G年报pdf数据集数据下载说明所有pdf均来自上海证券交易所官网,使用shreport库进行的下载。报告信息汇总文件summary.xlsx内字段company 上市公司企业名cod...

2020-04-24 11:57:22 452

转载 以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程

温馨提示:图片显示毛糙和不清楚,是分辨率过高的缘故,点击图片,即可看到高清大图。之前在八月份写过一篇针对外部数据分析的文章,《作为一个合格的“增长黑客”,你还得重视外部数据的分析!》,一...

2020-04-23 09:34:47 4958 2

转载 【数据挖掘实操】用文本挖掘剖析近5万首《全唐诗》

温馨提示:图片显示毛糙和不清楚,是分辨率过高的缘故,点击图片,即可看到高清大图,另:伴着下方天后的天籁之音---《清平调》,效果会更佳!楔子近些年来,弘扬中华传统文化的现象级综艺节目不断...

2020-04-22 14:34:31 3000 4

原创 正确的正则表达式学习方法是放弃抵抗^_^

一、re库常用方法re库常用函数作用re.findall(pattern, string)根据pattern返回匹配结果(列表)re.split(pattern, string)使用pa...

2020-04-21 09:57:29 428

原创 三行代码计算文本相似性

simtext库介绍simtext库可以计算两文档间四大文本相似性指标,分别为:Sim_Cosine cosine相似性Sim_Jaccard Jaccard相似性Sim_Mi...

2020-04-20 08:47:07 626

原创 两行代码读取pdf、docx文件

最近运行课件代码,发现pdf文件读取部分的函数失效。这里找到读取pdf文件的可运行代码,为了方便后续学习使用,我已将pdf和docx读取方法封装成pdfdocx包。pdfdocx只有简单...

2020-04-19 08:30:00 2176 1

转载 5个小问题带你理解列表推导式

问题1 用列表表示集合X直接敲出来X = [1,2,3,4,5,6,7,8,9,10]X[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]也可以X = list(ran...

2020-04-18 09:00:00 252

转载 如何利用Social Listening从社会化媒体中“提炼”有价值的信息?

温馨提示:文章篇幅过长,字数12000+,兼顾理论和实战,干货满满。若图片看不清,可点击图片,即可看到高清大图。背景“大数据”一直是最近几年全球很火的概念,从下图Google Trend...

2020-04-17 09:00:00 2149

转载 当数据分析遭遇心理动力学:用户深层次的情感需求浮出水面(万字长文,附实例分析)...

文科生的Python数据分析课~Python网络爬虫与文本数据分析背景现今互联网界,不管是研发、产品、设计,还是市场或运营,用户画像这个概念被炒得相当的火。如何构建用户画像的方法论可谓...

2020-04-14 11:15:39 2997

转载 年薪达不到23.5万全额退款 | 人工智能核心能力培养计划

面试过很多AI岗位,为什么就是拿不到offer?掌握哪些技能才能顺利进入AI行业?AI行业很多职位,怎样才能成为最核心的那个?AI行业是21世纪的风口行业,但是很多AI领域从业者思维和...

2020-04-13 10:00:00 187

转载 Pycharm最高效的快捷键集合

Pycharm具有强大的代码编写调试功能,尤其是快捷键的使用,能大大提升我们的编码效率,Pycharm支持的快捷键有很多,作为初学者,应该快速掌握那些真正实用和高频使用的快捷键,下面是...

2020-04-13 10:00:00 3321 2

原创 Label Studio多媒体数据标注工具[5星推荐]

一、简介如果采集的数据有很多图片、音频视频链接,虽然Nvivo可以进行多媒体分析,但是需要事先下载好的多媒体文件导入到Nvivo才能进行。多媒体数据处理属于很hitech的部分,很难,...

2020-04-12 09:00:00 6092 1

转载 【数据运营】数据分析中,文本分析远比数值型分析重要!(下)

本文是《数据分析中,文本分析远比数值型分析重要!》的下篇,以一个实际案例来聊文本分析在实际运营如何落地。行为脉络如下:先简要讲述文本分析的分支---情绪分析的基本原理,然后以亚马逊的K...

2020-04-11 08:30:00 1271

转载 数据分析中,文本分析远比数值型分析重要!(上)

温馨提示:本文是《数据分析中,文本分析远比数值型分析重要!》的上篇,聊的是文本分析的一些基本知识,下篇将以一个实际案例来聊聊基于大数据的文本分析是如何应用在商业场景中的,将于明天推送,...

2020-04-10 08:30:00 2855

原创 如何批量下载上海证券交易所上市公司年报

一、简介上海证券交易所上市公司定期报告下载,项目地址 https://github.com/thunderhit/shreportgithub地址 https://github.com...

2020-04-09 08:13:06 6982 4

转载 Python地信专题 | 基于geopandas的空间数据分析-坐标参考系篇

本文对应代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1 简介在上一篇文章中我们对geopanda...

2020-04-07 11:45:14 763

转载 50题matplotlib从入门到精通

Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案,也可以和图形工具包一起使用。和Pandas、Numpy并成...

2020-04-06 08:15:06 435

转载 30例 | 一文搞懂python日期时间处理

前言datetime是python的内置模块,用来处理日期和时间。该模块常用的类有:类名功能说明date日期对象time时间对象datetime日期时间对象timedelta时间间隔t...

2020-04-05 08:51:56 228

转载 简单几步,教你使用scikit-learn做分类和回归预测

前言 scikit-learn是基于Python的一个机器学习库,你可以在scikit-learn库中选择合适的模型,使用它训练数据集并对新数据集作出预测。对于初学者来说,有一个共同的...

2020-04-05 08:51:56 949

转载 pdfkit | 自动化利器,生成PDF就靠它了

在用jupyter notebook写代码文档的时候,有时需要导出pdf版本,但jupyter会报错。我在想,除了网上的debug方法,还没有其他方案可以生成pdf。度娘搜了下,很多博...

2020-04-04 09:00:00 2442 1

转载 Seaborn:一行代码生成酷炫狂拽的数据集可视化

之前看其他大佬的项目,只在意他们通过可视化的数据集,对数据特征挖掘的思路,但没有在意他们做可视化的工具。轮到自己做的时候就发现,wtf!matplotlib可以更难用一点嘛?别人酷炫狂...

2020-04-04 09:00:00 424

转载 30秒完成工作?终于知道Python这个技能有多重要!

如今的时代,早已不是努力就能成功的时代了,只知道埋头苦干,日复一日做同样的工作,迟早在职场被踢出局。只有用有限的时间做更多更有价值的事情,才能提升自己的核心竞争力。这让我想我的朋友娜娜...

2020-04-04 09:00:00 233

转载 Flask 扫盲系列-在线股票走势图

今天我们来分享一个 Flask 小应用,如何动手实现一个简易的在线股票 K 线图表。我们需要用到的知识包括 PyEcharts 的使用,tushare 库获取股票数据的方法以及 Fla...

2020-04-03 09:28:48 359 1

转载 Pandas 50题练习

受到numpy100题的启发,我们制作了pandas50题。Pandas 是基于 NumPy 的一种数据处理工具,该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准...

2020-04-02 09:46:57 1198

转载 不靠工资月入3万,不是你不会赚钱,而是赚钱的方式有问题!

这场疫情可以说是让每个人的生活都猝不及防的刹车。平日里光鲜亮丽却月光的年轻人们忽然断了收入,就马上出现了生存危机。生活费、房租、水电、花呗、信用卡……全都没着落了。蚂蚁金服和富达国际发...

2020-04-02 09:46:57 1028

转载 Pandas数据处理——盘点那些常用的函数(下)

继上一篇文章Pandas数据处理——盘点那些常用的函数(上)后,这篇文章整理了剩下的一些Pandas常见方法,整体难度会比上一篇文章中的大一点,但还是比较容易理解的。话不多说,直接进入...

2020-04-01 09:00:00 157

转载 如何让学习python像玩游戏一样上瘾?

当前AI人才极度紧缺,据《中国ICT人才生态白皮书》研究分析,到2018年底,我国人工智能人才缺口将突破100万,到2020年,这一数字将攀升到226万。在过去的几年中,Python已...

2020-04-01 09:00:00 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除