scrapy爬虫框架

最新推荐文章于 2024-09-16 07:18:09 发布

Kingsley_ 熙

最新推荐文章于 2024-09-16 07:18:09 发布

阅读量225

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/KingsleyXi_/article/details/119990009

版权

本文介绍了使用Scrapy爬虫框架的详细步骤，包括创建项目、设置登录验证、获取cookie、爬取数据及保存JSON文件。同时，讨论了整体流程，如自动生成spiders文件、items.py数据封装和启用Item Pipeline。

摘要由CSDN通过智能技术生成

scrapy爬虫框架

# 需要选择 “密码登录”
driver.find_element_by_xpath('//*[@id="normalLogin"]').click()
time.sleep(1)

# 手机号、密码登录
# 选中节点
input_mobile = driver.find_element_by_xpath('//*[@id="nameNormal"]')
input_Pwd = driver.find_element_by_xpath('//*[@id="pwdNormal"]')
# 输入手机号、密码
input_mobile.send_keys('133')
input_Pwd.send_keys('pwd')

（4）滑块验证

# 选中滑块
huakuai = driver.find_element_by_xpath('//*[@id="nc_1_n1z"]')

# 拖动滑块
action = ActionChains(driver)

# step1：在滑块处按住鼠标左键
action.click_and_hold(huakuai)
# step2：相对鼠标当前位置进行移动
action.move_by_offset(500, 0)  # 500值是试出来的
# step3：释放鼠标
action.release()
# 执行动作
action.perform()

（5）获取cookie

class qidianSpider(Spider):
    name = 'bookshelf'  # 爬虫名称

    #获取cookie
    def __init__(self):
        cookiejar = browsercookie.chrome()  # 获取Chrome浏览器中的Cookie
        self.cookie_dict = {
   }  # 字典：保存起点中文网的Cookie
        # 遍历Chrome中所有的Cookie，获取起点中文网的Cookie
        for cookie in cookiejar:
            if cookie.domain == ".qidian.com":  # 域名为起点中文网
                if cookie.name in ["_csrfToken",
                                   "e1",
                                   "e2",
                                   "newstatisticUUID",
                                   "ywguid",
                                   "ywkey"]:
                    self.cookie_dict[cookie.name] = cookie.value

    # 初始请求函数
    def start_requests(self):
        url = "https://my.qidian.com/bookcase"  # 初始网址
        yield Request(url