python爬虫
lulin1991
这个作者很懒,什么都没留下…
展开
-
爬虫学习第四部分
本次进行数据爬取,爬取腾讯新闻的热点数据 了解ajax加载 通过chrome的开发者工具,监控网络请求,并分析 用selenium完成爬虫 用selenium爬取https://news.qq.com/的热点精选 每条新闻的结构一致,具体代码如下: import time from selenium import webdriver from bs4 import Beaut...原创 2020-04-28 09:00:52 · 220 阅读 · 0 评论 -
爬虫学习第三部分
本次学习内容session和cookie,ip代理知识,selenium的使用,拔高:实现丁香园的模拟登录爬取留言板。 挑战项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626。 以下实现selenium模拟登录 import requests, json, re, ran...原创 2020-04-25 23:48:52 · 315 阅读 · 0 评论 -
爬虫学习第二部分
本次学习内容bs4、xpath和正则表达式 目录 1.xpath学习 1.1知识要点: Xpath常用的路径表达式 谓语(Predicates) 通配符 组合路径 XPath 运算符 1.2使用lxml解析 1.3 实战:爬取丁香园-用户名和回复内容 1.xpath学习 学习xpath,使用lxml+xpath提取内容。 使用xpath提取丁香园论坛的...原创 2020-04-23 23:26:55 · 882 阅读 · 0 评论 -
爬虫学习第一部分
第一部分主要学习内容html等有关知识,api使用,request-get使用 拔高部分:js 之前做过一些简单爬虫,对request-get的使用比较熟悉。以下代码是之前爬取链家二手房数据,较为简单,以武汉市为例,结果保存在txt中。 import requests from bs4 import BeautifulSoup def getHTMLText(url): ...原创 2020-04-21 23:50:34 · 236 阅读 · 0 评论