python
文章平均质量分 79
阿昌喜欢吃黄桃
这个作者很懒,什么都没留下…
展开
-
Day537&538&539&540&541.scrapy爬虫框架 -python
scrapy爬虫框架一、scrapyscrapy是什么?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。安装scrapypip install scrapy1、scrapy项目的创建以及运行①创建scrapy项目终端输入 scrapy startproject 项目名称②项目组成③创建爬虫文件跳转到spiders文件夹cd 目录名字/目录名字/spiders 创建爬虫原创 2022-02-14 22:33:55 · 2178 阅读 · 3 评论 -
Day536.Selenium自动化浏览器脚本爬虫 -python
Selenium一、Selenium1、什么是selenium(1)Selenium是一个用于Web应用程序测试的工具。(2)Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。(3)支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试。(4)selenium也是支持无界面浏览器操作的。2、为什么使用selenium*模拟浏览器功能,自动执行网页中的js代码原创 2022-02-12 15:32:19 · 1764 阅读 · 0 评论 -
Day535.爬虫解析 -python
解析一、xpath安装lxml库pip install lxml ‐i https://pypi.douban.com/simple 导入lxml.etreefrom lxml import etree etree.parse() 解析本地文件html_tree = etree.parse('XX.html')etree.HTML() 服务器响应文件html_tree = etree.HTML(response.read().decode('utf‐8')原创 2022-02-11 18:54:40 · 1768 阅读 · 0 评论 -
Day534.Urllib爬虫 -python
Urllib一、反爬手段User‐Agent:User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。代理IP西次代理快代理什么是高匿名、匿名和透明代理?它们有什么区别?1.使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。2.使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。3.使用高匿名代理,对方服务器不知原创 2022-02-10 17:41:18 · 2535 阅读 · 4 评论 -
Day532&533.Python基础 -python
Python基础一、Python环境的安装1、下载Python访问Python官网: https://www.python.org/点击downloads按钮,在下拉框中选择系统类型(windows/Mac OS/Linux等)选择下载最新版本的Python2、安装Python双击下载好的Python安装包勾选左下角 Add Python 3.7 to PATH 选项,然后选择 Install now 立刻安装Python.默认安装自定义安装安装完成3、测试是否安装成原创 2022-02-08 22:10:27 · 2329 阅读 · 2 评论