- 博客(10)
- 收藏
- 关注
原创 Scrapy框架
Scrapy是一个为了爬取网站数据,提取数据而编写的应用框架,爬虫的三步:获取网页,解析网页,存储网页都整合成了这个爬虫框架 Scrapy框架主要由五大组件组成,它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。 (1)、调度器(Scheduler): 调度器,说白了把它假设成为一个URL(抓取网页的网址或者说是链接)的优先队列,由它来决定下一
2021-05-30 21:58:16
222
原创 2021-05-20
抓取短租数据 from selenium import webdriver import time option = webdriver.ChromeOptions() # 防止打印一些无用的日志 option.add_experimental_option("excludeSwitches", ['enable-automation', 'enable-logging']) driver = webdriver.Chrome(options=option) driver.get("https://zh.
2021-05-30 21:56:14
96
原创 数据的基本存储
把数据存储到txt title = “hjskafsadf" with open ("c:\\desktop\\title.txt","a+") as f: f.write(title) f.close() 有时需要把几个变量写入txt文件中,这时分隔符就比较重要了,可以采用tab进行分隔,因为在字符串中一般不会出现tab符号。用"\t".join将变量连接成一个字符串 aaa = "\t".join(["a","b","c","d"]) with open ("c:/you/desktop/text.t
2021-05-22 23:21:33
92
原创 beautifulsoup的基本使用总结
BeautifulSoup对象是一个复杂的树形结构,每一个节点都是一个python对象,获取网页内容就是一个提取对象内容的过程,提取对象的方法有三种。 1、遍历文档树 2、搜索文档树 3、CSS选择器 遍历文档树 例如获取,标签 soup.header.h1 对于某个标签的所有子节点,可以用contents 把它的子节点以列表的方式输出 soup.header.div.contents 使用children方法获取所有子标签,返回i结果是生成器类型,要用for打印出 for child in soup.he
2021-05-22 22:21:15
281
原创 2021-04-26
Selenium的进阶操作 Selenium要在整个网页加载出来后才开始爬取内容,速度比较慢,我们可以控制Selenium控制浏览器加载的内容,从而加快Selenium的爬取速度。可以从以下三种方法来控制: 1、控制css的加载 2、控制图片文件的显示 3、控制JavaScript的运行 from selenium import webdriver from selenium.webdriver.chrome.options import Options chromeOptions = webdriver.
2021-04-26 22:11:28
71
原创 2021-04-25
selenium实践 from selenium import webdriver import time driver = webdriver.Chrome() driver.implicitly_wait(3) driver.get("http://santostang.com/2018/07/04/hello-world/") time.sleep(3) for i in range(0,3): driver.execute_script("window.scrollTo(0,document
2021-04-26 12:51:51
60
原创 2021-04-21
第三章 通过Selenium模拟浏览器抓取 Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,浏览器是
2021-04-25 22:04:01
75
原创 2021-04-20
第二章 动态网页抓取 动态网页:通过AJAX技术,在后台与服务器进行少量的数据交换就可以使网页实现异步更新,这意味着可以在不断重新加载整个网页的情况下对网页的某部分进行更新。一方面减轻了网页重复内容的下载,另一方面节省了流量 解析真实地址抓取 import requests import json link = "https://api-zero.livere.com/v1/comments" headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Wi
2021-04-21 12:46:52
114
原创 2021-04-19
Requests爬虫实践 项目名称:豆瓣电影top250的所有电影的名称 项目url:http://movie.douban.com/top250 1.构建请求头 hearder={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36", "host":"movie.douban.com"} 可以看出
2021-04-19 17:27:20
108
1
原创 2021-04-09
Requests pip install requests import requests r=requests.get("http://www.santostang.com/') print("文本编码:",r.encoding) print("响应状态码:",r.status_code) print("字符串方式的响应体",r.text)
2021-04-19 16:03:35
72
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人