大数据爬虫

最新推荐文章于 2024-09-14 22:07:12 发布

tuyihan

最新推荐文章于 2024-09-14 22:07:12 发布

阅读量1.5k

点赞数 25

文章标签：大数据爬虫

本文链接：https://blog.csdn.net/tuyihan/article/details/139374881

版权

第一部分 研究对象及结果

1.1 股票及网站选取

本文选取了保利发展、碧桂园、富力地产、华润置地、金科股份、龙湖集团、绿地控股、融创中国、万科A、中海地产十只股票，对同花顺官网的股价信息和东方财富网资讯、股吧进行了爬取，并生成词云。

1.2爬虫结果

图1.1同花顺股价爬取结果

图1.2东方财富网股吧爬取结果

图1.3东方财富网资讯爬取结果

图1.4生成词云

第二部分 程序演示

运用Python的request库，模拟浏览器请求，解析网站返回的响应。

2.1同花顺网站股价爬取

图2.1股价爬取（一）

图2.2股价爬取（二）

图2.3股价爬取（三）

图2.4股价爬取（四）

首先，安装用于网络请求、数据处理、格式化输出的库。

requests as r: 用于发送HTTP请求。
urlsplit: 从urllib.parse中导入，用于解析URL。
json: 用于处理JSON数据。
re: 用于正则表达式匹配。
pprint: 用于打印数据结构。
pandas as pd: 一个数据处理库。
os: 用于与操作系统交互。
sys: 提供对Python解释器的一些变量和函数的访问。
tqdm: 一个快速、可扩展的Python进度条库。

其次，处理一个URL发送网络请求，从响应中提取数据。

先解析URL，构建一个新的字符串，从而构建正则表达式模式。然后发送一个网络请求，获取响应内容，并使用正则表达式来匹配并提取所需的信息。

由于部分网站设有反爬机制，需要根据网站相关信息进行伪装，所以本文用HEADERS模拟浏览器行为的头部。若只保留"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"，则会显示因python发出请求而被网站禁止，故保留整段头部信息。

图2.5同花顺HEADERS

具体来看，HTTP请求头部 (HEADERS)是一个字典，包含了在发送HTTP请求时可能会用到的头部信息。这些头部信息用于模拟浏览器的行为，及遵守某些网站的请求规则（robots协议）。

"Dnt": "1": 表示“Do Not Track”，用于告诉网站不要追踪用户的浏览行为。
"Referer": 表示请求的来源URL。
"Sec-Ch-Ua"、"Sec-Ch-Ua-Mobile"、"Sec-Ch-Ua-Platform": 这些头部与浏览器的用户代理字符串相关，用于描述发起请求的浏览器类型、版本和平台。
"User-Agent": 标准的HTTP头部，用于标识发出请求的浏览器或其他客户端的类型和版本。

url_hs 和 url_hk是两个字符串模板，用于构建获取股票信息的URL。它们分别用于获取上海证券交易所（HS沪市）和香港证券交易所（HK港市）的股票信息。其中 {} 是一个占位符，可被替换为具体的股票代码。