python数据分析_Python网络爬虫与文本数据分析

在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:

  • 数据的获取

  • 文本(非结构化)数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。爬虫市面上有很多爬虫课,这里我们举文本分析的一个应用。使用Python可以帮助我们加速洞察的广度和速度,假设你需要研究几千家公司数十年的报告,需要你标记出

  • 公司发生重大政策变化的年份

  • 外部环境发生重大变化的年份   

如果靠人工去挖掘这两类信息,很难,不具有可实施性。但熟悉Python的人, 会借助Pandas粗略的绘制出每一个公司年报前后年份的相似性曲线 ,再用人工去读图。就会很快的识别出或政策或环境发生变化的时间点。

9f3d3cb4c11578ffcb06d40ecc23ad1f.png

上图是 Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.  文中的一图。我们知道 前后年份年报相似性越小,说明该年份前后发生了很大的改变 。图中红色位置很辣眼睛,每家公司的海量的年报只需简单的读图就帮我们快速锁定2010年前后报告中含有某些重大变故,在这个案例中,工作效率说提高几十倍应该是妥妥的。

f04812c711ff9549b211b4623d9e83dd.png

课程目录

第一节 简介

  课程介绍

  课程知识点分布

第二节 环境配置

Mac环境配置

Windows环境配置

pip安装问题解决办法

jupyter notebook使用方法

第三节 python基本语法

python跟英文一样也是一门语言,这很文科

字符串

列表

元组

字典

集合

if条件语句

for循环语句

try-except异常处理语句

第四节 python高级语法

切片-对想要的数据字段进行切片

列表推导式

函数

csv文件存储库

os文件路径操作库

re正则表达式(文本分析利器)

python初学者常见错误

第五节 网络爬虫原理

      理解访问与请求

      寻求网址规律

      开发者工具的使用

      requests访问库

      pyquery网页解析定位库 

第六节 网络爬虫实战

      静态网站-天涯论坛

      静态网站-大众点评

      静态网站-boss直聘

      动态网站-百度企业信用

      动态网站-京东评论

      动态网站-B站弹幕

      动态网站-B站评论

      如何用pandas采集网页中的表格数据

第七节 初识文本分析

     如何从不同格式的文件中读取数据

     jieba分词、词频统计与可视化

     海量公司年报的情感分析(中文)

     英文数据的情感分析

     如何对excel、csv文件做数据分析(pandas数据分析库)

第八节 文本分析与机器学习     

      机器学习概论

      用机器学习做文本分析的步骤

      机器学习库scikit-learn

      文本特征工程(描述数据的方式)

      在线评论情感分类

      了解聚类Kmeans算法

      文本相似度计算

       LDA话题模型

      计算消费者异质性(特征向量)

      文本分析在经管研究中的应用案例

相关文献

了解文本分析在经管研究中使用情况,可以参考

  • 沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19

  • Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics

  • Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing (2019): 0022242919873106.

  • 孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.

  • 王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.

  • Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.

  • Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.

课程入口

f04812c711ff9549b211b4623d9e83dd.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值