【5-2】股票吧信息爬取实战

铁盒薄荷糖

已于 2024-01-30 09:26:06 修改

阅读量901

点赞数 3

分类专栏：知识图谱实战6+3天文章标签： python 开发语言

于 2024-01-30 09:25:08 首次发布

本文链接：https://blog.csdn.net/m0_37932764/article/details/135917873

版权

知识图谱实战6+3天专栏收录该内容

20 篇文章 0 订阅

订阅专栏

一、实验目标：

获取股票吧相关帖子的主题，阅读量，评论，时间等信息到本地文件

二、实验环境

1.Python 版本：Python3

2.所需依赖库： bs4, csv, urllib, re

①Requests：http请求库

Bs4：全名BeautifulSoup，从网页抓取数据

Beautiful Soup是python的一个HTML或XML的解析库，我们可以用它来方便的从网页中提取数据，它拥有强大的API和多样的解析方式。

其拥有3个特点：

提供一些简单的方法和python式函数，用于浏览，搜索和修改解析树，它是一个工具箱，通过解析文档为用户提供需要抓取的数据

自动将转入稳定转换为Unicode编码，输出文档转换为UTF-8编码，不需要考虑编码，除非文档没有指定编码方式，这时只需要指定原始编码即可

位于流行的Python解析器（如lxml和html5lib）之上，允许您尝试不同的解析策略或交易速度以获得灵活性

②Re：正则表达式

③网站选择原则： 股票信息静态存在于html页面中，非js代码生成，没有Robbts协议限制。
④选取方法： 打开网页，查看源代码，搜索网页的股票价格数据是否存在于源代码中。

接着查看百度个股信息网页的源代码，发现每只股票的信息在html代码中的存储方式如下

从上图中可以发现百度股票的数据是html代码生成的，符合我们本项目的要求，所以在本项目中选择百度股票的网址。

由于百度股票只有单个股票的信息，所以还需要当前股票市场中所有股票的列表，在这里我们选择东方财富网

因此，在我们存储每只股票的信息时，可以参考上图中html代码的存储方式。每一个信息源对应一个信息值，即采用键值对的方式进行存储。在python中键值对的方式可以用字典类型。因此，在本项目中，使用字典来存储每只股票的信息，然后再用字典把所有股票的信息记录起来，最后将字典中的数据输出到文件中。

三、待爬取资源列表

爬取网站：http://guba.eastmoney.com/

四、实验步骤

步骤1：从设置爬虫代码请求头

步骤2：设置数据存储方式

步骤3：获取列表第n页的目标信息，并解析

步骤4：循环获取列表页面中的目标信息，并解析

具体代码

# 目标采集：帖子标题，阅读数、评论数、链接、发布时间  
import requests  
from bs4 import BeautifulSoup  
import time  
import csv  
import re  
#复制请求头  
# 在请求网页爬取的时候，输出的text信息中会出现抱歉，无法访问等字眼，这就是禁止爬取，需要通过反爬机制去解决这个问题。  
# headers是解决requests请求反爬的方法之一，相当于我们进去这个网页的服务器本身，假装自己本身在爬取数据。  
# 对反爬虫网页，可以设置一些headers信息，模拟成浏览器取访问网站 。  
head ={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',  
'Accept-Encoding':'gzip,deflate',  
'Accept-Language':'zh-CN,zh;q=0.9',  
'Cache-Control':'max-age=0',  
'Connection':'keep-alive',  
'Cookie':'st_pvi=87732908203428;st_si=12536249509085;qgqp_b_id=9777e9c5e51986508024bda7f12e6544;_adsame_fullscreen_16884=1',  
'Host':'guba.eastmoney.com',  
'Referer':'http://guba.eastmoney.com/list,600596,f_1.html',  
'0000000000secure-Requests':'1',  
'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.181Safari/537.36'}  

#获取列表页第n页的具体目标信息，由BeautifulSoup解析完成  
def get_urls(url):  
    print("url:"+url)  
    baseurl = 'http://guba.eastmoney.com/'  
    q = requests.get(url,headers=head)  
    soup = BeautifulSoup(q.text,'html.parser')  
    urllist = soup.findAll('div',{'class':'articleh'})  
    # print(urllist)  
    for i in urllist:  
        if i.find('a') != None:  
            try:  
                detailurl = i.find('a').attrs['href'].replace('/','')  
                # 找到详情页地址  
                # print("ddd"+detailurl)  
                titel = i.find('a').get_text()  
                yuedu = i.find('span',{'class':'l1'}).get_text()  
                pinlun = i.find('span', {'class': 'l2'}).get_text()  
                #获取帖子时间  
                ptime = get_time(baseurl+detailurl)  
                w.writerow([detailurl,titel,yuedu,pinlun,ptime])  
                # print("zz"+baseurl + detailurl)  
            except:  
                pass  
#循环所有页数  
for i in range(1,2):  
    print(i)  
    #新安股份吧第1~2页，这里可以改到第N页  
    get_urls('http://guba.eastmoney.com/list,600596,f_'+str(i)+'.html')

铁盒薄荷糖

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
【5-2】股票吧信息爬取实战

因此，在本项目中，使用字典来存储每只股票的信息，然后再用字典把所有股票的信息记录起来，最后将字典中的数据输出到文件中。由于百度股票只有单个股票的信息，所以还需要当前股票市场中所有股票的列表，在这里我们选择东方财富网。式函数，用于浏览，搜索和修改解析树，它是一个工具箱，通过解析文档为用户提供需要抓取的数据。代码生成的，符合我们本项目的要求，所以在本项目中选择百度股票的网址。的解析库，我们可以用它来方便的从网页中提取数据，它拥有强大的。因此，在我们存储每只股票的信息时，可以参考上图中。编码，输出文档转换为。
复制链接

扫一扫