爬虫
初学者中的小白
这个作者很懒,什么都没留下…
展开
-
Selenium笔记
现在许多网站都不是静态网站(静态加载HTML文档),大部分使用javaScripr或者Ajax技术加载一些数据,使用普通的爬虫程序爬取不到这些数据,因为普通的爬虫程序没有能力执行javaScript程序,在javaScript程序执行之前就返回爬取到的整个页面的数据了。因此使用Selenium模拟浏览器访问网站来获取网页文档。1.安装Selenium框架 pip installSe...原创 2019-11-25 20:39:33 · 180 阅读 · 0 评论 -
pyquery的使用
from pyquery import pyQuery as pqurl初始化doc = pq(url=" ")文件初始化doc = qp(filename="路径")基本css选择器参考链接:https://www.cnblogs.com/lei0213/p/7676254.html原创 2019-11-25 20:35:37 · 85 阅读 · 0 评论 -
requests库的基本使用
基本的get请求response = requests.get(url)带参数的get请求data = {}response = requests.get(url, params=data)直接解析json数据response = requests.get(url)print(response.json())获取二进制数据response = requests....原创 2019-11-24 21:37:55 · 319 阅读 · 0 评论 -
scrapy笔记
1.在创建的scrapy项目中的spiders文件夹中创建爬虫程序,每一个爬虫程序都继承自于scrapy.Spider类,每一个爬虫程序都有一个名字(name=' '),这个名字在整个爬虫项目中是唯一的2.start_requests函数是程序的入口函数。程序开始时确定要爬取的网站地址,然后建立一个scrapy.Request请求类,向这个类提供url参数,指明要爬取的网页地址,爬取完网页后就...原创 2019-11-05 18:23:10 · 126 阅读 · 0 评论 -
scrapy爬取当当网Python图书的部分数据
1.下载scrapy框架 pip install scrapy2.在E盘下创建一个文件夹scrapy01,在命令行窗体中进入该文件夹3.创建项目:scrapy startproject 项目名 scrapy startproject first_scrapy4.使用pycharm打开scrapy01文件夹5.在items.py文件中创建所需的字段,用于保存数据...原创 2019-11-04 16:27:27 · 935 阅读 · 0 评论 -
爬虫------爬取搜狗图片
一、单线程# author:WN# datetime:2019/10/30 9:07import requestsimport redef image_urls(): search_name = input("请输入你要搜索的图片:") search_num = int(input("一页有48张图片,需要几页:")) # url存放的总列表 al...原创 2019-10-31 14:29:03 · 1182 阅读 · 4 评论 -
爬虫程序------天气
输入城市,爬取该城市在中国天气网的七天天气代码如下:# author:WN# datetime:2019/10/27 11:03import requestsimport refrom bs4 import BeautifulSoupfrom bs4 import UnicodeDammitdef find_city_num(): """查找出城市所对应的编号""...原创 2019-10-28 22:17:56 · 556 阅读 · 0 评论 -
Beautifulsoup的简单使用
一、查找1.find_all函数:返回查找到的所有指定元素的列表匹配到的每一个元素都是bs4.element.Tag对象name:标签名attrs:属性名recursive:是否在元素节点的字数下面全范围进行查找(是否重复查找),默认True后面的参数一般不使用2.find函数:返回查找到的第一个满足要求的元素二、获取属性值三、获取元素包含的文本值...原创 2019-10-28 22:13:32 · 351 阅读 · 0 评论