网络机器人
Python学习中的进阶者
不断地学习才能完善自己
展开
-
网络蜘蛛:8.Selenium 爬取淘宝商品实战
Selenium安装pip install seleniumpip install pyquery自动运行浏览器from selenium import webdriverbrowser = webdriver.Chrome('D:\APP\chromedriver.exe')browser.get("https://www.baidu.com/s?wd=python")...原创 2020-07-12 16:45:12 · 301 阅读 · 0 评论 -
学习笔记:网络机器人7.1Scrapy实战 ——爬取新闻
新建项目scrapy startproject newsitems.py打开scrapy框架自动创建的items.pyitems.py修改items.py定义spider在项目根目录运行命令行命令(注意是否已经cd news进入到项目根目录):scrapy genspider news163 news.163.com...原创 2020-07-11 15:04:27 · 295 阅读 · 2 评论 -
学习笔记:网络机器人6.1 python使用you-get爬取网站视频
1. 下载安装you-get模块(以windows系统为例):pip install -i https://pypi.tuna.tsinghua.edu.cn/simple you-get2. 指令:you-get -i [URL]视频基础信息介绍,用来展示集中不同的清晰度you-get -i https://www.bilibili.com/video/av801289953. 指令 you-get -o/-O指定输出文件夹(-o)和文件名字(-O)you-get -o C:\Users原创 2020-07-10 13:43:48 · 361 阅读 · 0 评论 -
学习笔记:网络机器人:7.0Scrapy
引擎(Scrapy Engine)调度器(Scheduler)下载器(Downloader)蜘蛛(Spiders)项目管道(Item Pipeline)爬取流程针对每个URL, Scheduler->Downloader->Spider->如果返回的是新的URL, 就会返回Scheduler如果是需要保存的数据, 则会被放到item pipeline里面Wi...原创 2020-07-07 12:55:21 · 103 阅读 · 0 评论 -
学习笔记:网络机器人6.0python爬取多类型音乐步骤详解
目标网址:酷狗音乐-谁伴我闯荡爬虫逻辑:【找到要获取特定音乐的url】>>>【找到该资源链接的url】>>>【封装获取音乐的函数】>>>【封装下载音乐的函数】注意:这两个获取url的顺序是和之前获取url的过程是反过来的,以往是获取外部页面的url后进入内部页面的url,然后再获取该页面的信息。但是下载音乐(定向爬取数据),首先是要确定获取音乐的url(通过浏览器输入后点击可以直接播放–内部页面数据),然后再找其上一层的url(资源链接的url原创 2020-07-06 12:43:23 · 1702 阅读 · 0 评论 -
学习笔记:网络机器人5.1JSON解析之爬取腾讯新闻
1. 寻找json接口在目标页面点击鼠标右键进行’检查’,然后选择’Network’,再点击’网页刷新’按钮,接着在右下区域内弹出的内容上选择具有pull_url标识的文件,最后点击’Preview’选项即可。https://news.qq.com/比如就以当前这个页面来看,获取这个json的接口就是点击’Preview’旁边的’Headers’,选择’Request URL:'后面的网址,就为请求数据的接口。如下Request URL:https://i.match.qq.com/ninja/f原创 2020-07-05 18:50:51 · 186 阅读 · 0 评论 -
学习笔记:网络机器人5.0JSON格式数据基础
概念JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格 式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完 全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和 生成,并有效地提升网络传输效率。{“a”: 1, “b”: [1, 2, 3]}数组转化为JSONimport json # 导入json包data =原创 2020-07-05 18:41:15 · 238 阅读 · 0 评论 -
学习笔记:网络机器人:4.0.Python获取图片
目标网址:全景网山水壁纸网页分析还是和之前爬取文字信息一致,需要进行网页信息的解析,获得图片数据所在的地址,然后进行图片的下载分析网页后发现所需要的图片的url在【a.item.lazy img】中封装第一个函数,获取图片的url首先是导入相关的库,然后进行函数的编写,这里的第一个函数的内容和之前的几乎一样import requestsfrom bs4 import BeautifulSoupfrom uuid import uuid1import osdef get_image原创 2020-06-30 19:48:03 · 180 阅读 · 0 评论 -
学习笔记:网络机器人:3.1实习僧网站信息
https://www.shixiseng.com/interns?page=1&keyword=python实战解析步骤一、建立for循环爬取前20页的内容首先、查看翻页URL的信息,找规律发现只有page=后面的数值是不一样的,所以构造for循环(先获取少一点的页面),如下import requests # 导入网络请求模块from bs4 import Beautif...原创 2020-06-28 15:36:23 · 176 阅读 · 0 评论 -
学习笔记:网络机器人3.0最简单的网络机器人
利用request输出首页内容import requests # 导入网络请求模块headers = {"User-Agent":"xxx"} # 定制请求头html = requests.get('http://xiaohua.zol.com.cn/lengxiaohua/1.html',headers = headers) # 找到网址,get请求print(html....原创 2020-04-27 14:24:16 · 239 阅读 · 0 评论 -
学习笔记:网络机器人1.前端入门
爬虫是在互联网是执行的程序。最大的网络是万维网www,我们的爬虫只是参与其中很小的一部分爬虫本质上就是HTTP客户端请求。爬虫怎么做?1.找到URL2.构造请求包(headers,cookies,data)3.发送请求,接收响应4.数据清洗,提取需要信息爬虫工具1.发起请求 requests2.处理响应 bs4 xpath re3.存储数据 本地存储,数据库存储pip install requestspip install bs4网页三剑客HTML CSS JavaScr原创 2020-06-23 14:53:37 · 165 阅读 · 0 评论