一周爬虫集训任务四：实战大项目

最新推荐文章于 2024-07-22 06:34:25 发布

SsunTtaoauto

最新推荐文章于 2024-07-22 06:34:25 发布

阅读量216

点赞数 1

分类专栏：爬虫文章标签：爬虫 selenium xpath

本文链接：https://blog.csdn.net/qq_30006749/article/details/89244810

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一周爬虫集训任务四：实战大项目

1 任务

Task4（2天） 实战大项目
1. 实战大项目：模拟登录丁香园，并抓取论坛页面所有的人员基本信息与回复帖子内容。
2. 丁香园论坛：http://www.dxy.cn/bbs/thread/626626#626626 。

2 实战大项目

要求：模拟登录丁香园，并抓取论坛页面所有的人员基本信息与回复帖子内容。

首先使用Selenium模拟登陆丁香园论坛。这里先模拟点击登陆按钮，然后模拟点击返回电脑登陆按钮，然后定位账号输入框和密码登录框，并输入相应的账户及密码。具体代码如下:

##登陆代码
def login_denglu(browser):
    try:
        #通过xpath定位到登录按钮，并点击
        browser.find_element_by_xpath('//*[@id="headerwarp"]/div/div[1]/div/a[1]').click()
        #点击返回电脑登录
        browser.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/a[2]').click()
        #找到账号的输入框
        elem = browser.find_element_by_name('username')
        #清空输入框
        elem.clear()
        #输入账号
        elem.send_keys("账号")
        #找到密码的输入框
        elem = browser.find_element_by_name('password')
        #清空输入框
        elem.clear()
        #s输入密码
        elem.send_keys("密码")

        print('开始登录：')
        #点击登录按钮
        browser.find_element_by_xpath('//*[@id="user"]/div[1]/div[3]/button').click()

    except TimeoutException:
        print("Time out")
    except NoSuchElementException:
        print("No Element")

注意： 此步骤操作多了会出现验证，验证方式有几种：按顺序点击图片中的汉字、滑动图片块等；本文先跳过该步骤。

登录成功后，开始爬取数据，这里使用XPath提取丁香园论坛的回复内容。相应代码如下：

##开始爬取信息
def get_information(browser):
    print("登录成功")
    time.sleep(10)
    print("开始获取信息")
    #利用xpath获取丁香园数据
    data = requests.get(url).text#以文本形式打印网页源码
    s = etree.HTML(data)  # 解析HTML文档

    for i in range(1, 4):  # rang(1,28):1 2 3 4...27,一共27楼
        try:  # 帖子内容这里的第一个帖子的div有点不一样，程序中采用分支处理。
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))  # 格式化信息
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[1]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗：去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)
        except:
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[2]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗：去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)

完整代码如下：

## 实战大项目：模拟登录丁香园，并抓取论坛页面所有的人员基本信息与回复帖子内容。
from selenium import webdriver
import time
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from lxml import etree
import requests

#打开浏览器
browser = webdriver.Chrome()
#访问地址
url = "http://www.dxy.cn/bbs/thread/626626#626626"
browser.get(url)

##登陆代码
def login_denglu(browser):
    try:
        #通过xpath定位到登录按钮，并点击
        browser.find_element_by_xpath('//*[@id="headerwarp"]/div/div[1]/div/a[1]').click()
        #点击返回电脑登录
        browser.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/a[2]').click()
        #找到账号的输入框
        elem = browser.find_element_by_name('username')
        #清空输入框
        elem.clear()
        #输入账号
        elem.send_keys("账号")
        #找到密码的输入框
        elem = browser.find_element_by_name('password')
        #清空输入框
        elem.clear()
        #s输入密码
        elem.send_keys("密码")

        print('开始登录：')
        #点击登录按钮
        browser.find_element_by_xpath('//*[@id="user"]/div[1]/div[3]/button').click()

    except TimeoutException:
        print("Time out")
    except NoSuchElementException:
        print("No Element")

##开始爬取信息
def get_information(browser):
    print("登录成功")
    time.sleep(10)
    print("开始获取信息")
    #利用xpath获取丁香园数据
    data = requests.get(url).text#以文本形式打印网页源码
    s = etree.HTML(data)  # 解析HTML文档

    for i in range(1, 5):  # rang(1,28):1 2 3 4...27,一共27楼
        try:  # 帖子内容这里的第一个帖子的div有点不一样，程序中采用分支处理。
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))  # 格式化信息
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[1]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗：去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)
        except:
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[2]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗：去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)

#主函数
def main():
    login_denglu(browser)  # 登录函数
    get_information(browser)  # 获取标题与链接
    time.sleep(1)  # 休眠

# 函数入口调用
if __name__ == '__main__':
    main()

    input("按任意键退出-> ")
    browser.quit()

运行结果如下：

开始登录：
登录成功
开始获取信息
楼医生
我遇到一个“怪”病人，向大家请教。她，42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒，短暂意识丧失。无逆行性遗忘，无抽搐，无口吐白沫，无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊；头颅MRI示小软化灶；脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断，还需做什么检查，治疗方案怎样？ 
lion000
从发作的症状上比较符合血管迷走神经性晕厥，直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。
xghrh
同意lion000版主的观点：如果此患者随着年龄的增长，其发作频率逐渐减少且更加支持，不知此患者有无这一特点。
按任意键退出->

3 参考

SsunTtaoauto

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一周爬虫集训任务四：实战大项目

一周爬虫集训任务四：实战大项目1 任务2 实战大项目3 参考1 任务Task4（2天）实战大项目1. 实战大项目：模拟登录丁香园，并抓取论坛页面所有的人员基本信息与回复帖子内容。2. 丁香园论坛：http://www.dxy.cn/bbs/thread/626626#626626 。2 实战大项目要求：模拟登录丁香园，并抓取论坛页面所有的人员基本信息与回复帖子内容。首先使用Se...
复制链接

扫一扫

专栏目录