python爬虫实战——1、爬取豆瓣文章和对应的链接

完整代码

from selenium import webdriver
from privatecode import phone,password
import time

# 1 模拟登陆,账号密码的形式
# 1.1 打开浏览器(创建对象)
driver = webdriver.Chrome()
# 1.2 打开豆瓣网页(调用功能)
driver.get('https://accounts.douban.com/passport/login')
# 1.3 鼠标定位’密码登录‘的地方 并鼠标左击一次
driver.find_element_by_class_name('account-tab-account').click()  #代码有动态变化需要注意
# 1.4 自动输入账号和密码(前提是你已经注册过了) 模拟键盘输入
driver.find_element_by_id('username').send_keys(phone)
driver.find_element_by_id('password').send_keys(password)
# 1.5 用超连接上的本文信息定位元素
driver.find_element_by_link_text('登录豆瓣').click()
# 1.6 设置等待时间(一般是5秒) 有滑动拼图验证的时候,可以手动拖拽 或opencv ocr pil人工智能技术处理
time.sleep(5)

# 2 获取文章标题和对应的连接,打印出来
# 2.1 获取文章标题(创建对象)  使用class
titles = driver.find_elements_by_class_name('title')
for title in titles:
    print(title.text)
# 2.2 获取对应连接并打印 使用xpath
xpath_urls = '//div[@class = "title"]/a'
urls = driver.find_elements_by_xpath(xpath_urls)
for url in urls:
    dataurl = url.get_attribute("href")
    print(dataurl)

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值