纯小白Python爬取东方财富网研报内容并通过机器学习的SVM模型进行文本分析(四)

本文介绍了如何使用Python基础、正则表达式和selenium库爬取东方财富网的研报链接及内容,并整合成一个表格。后续章节将利用机器学习的SVM模型进行文本分析。
摘要由CSDN通过智能技术生成

学习了爬虫基础、编码、正则表达式、selenium库之后,就可以正式进行我们的爬取了

一、爬取研报链接

# -*- coding:utf-8 -*-
import time
from selenium import webdriver#selenium库需要环境配置
import pandas as pd
date=[]
rating=[]
rating_change=[]
institution_name=[]
report_url=[]
driver=webdriver.Firefox()#模拟浏览器进行访问
driver.get("http://data.eastmoney.com/report/465yb_1.html#pageAnchor")#动态页面
def scrapy():
    for i in range(1,2):
        def get_data():
            date1=driver.find_elements_by_xpath("//div[@id='dt_1']//li[@class='date']")
            #通过xpath语法来爬取标签名[@属性名=""]
            #//代表之前为任意值
            for i in date1:
                date2=i.text#获取文本内容
                date.append(date2)
        time.sleep(2)#暂停一下,要不然会被封
        def get_institution():
            institution_name1=driver.find_elements_by_xpath("//div[@id='dt_1']//li[@cl
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值