![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
马铃薯拌土豆
这个作者很懒,什么都没留下…
展开
-
爬虫基础
爬虫的组成:爬虫节点和控制节点 控制节点之间可以相互通信,控制节点与其下的爬虫节点可以相互通信,同一个控制节点下的爬虫节点可以相互通信 网络爬虫的类型:通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫 通用网络爬虫: 1.获取初始的URL 2.根据初始的URL爬取页面并获得新的URL。将爬取的网页存储到原始数据库中,并且在爬取网页的同时,发现新的URL地址,将已爬取的URL地转载 2017-12-26 19:49:00 · 1886 阅读 · 0 评论 -
url库与urlerror异常chuli
抓取网页实例: import urllib.request file = urllib.request.urlopen('http://www.baidu.com') data = file.readlines() with open('C:/Users/Python/desktop/myhtml/my1.html','wb') as f: for i in data:原创 2017-12-26 20:40:19 · 272 阅读 · 0 评论 -
selenium
#coding=utf8from lxml import etreefrom scrapy import *from selenium import webdriver#from selenium.webdriver.common.by import By#进行编码# import sys# reload(sys)# sys.setdefaultencoding('utf-8')#启动浏览器# b...原创 2018-03-17 15:25:00 · 254 阅读 · 0 评论 -
python /selenium /动态网页 /爬虫
因为淘宝是动态网页,很多商品的数据是动态加载的,所以我们就无法使用爬取静态页面的方式来抓取淘宝商品信息。这里我使用了自动化测试工具selenium来爬取动态页面的商品信息。这里有几个需要注意的地方,因为淘宝首页打开首先是二维码登录界面,所以为了直接通过程序实现登录,我们要利用指令[python] view plain copyfind_element_by_id('J_Quick2Static')...转载 2018-03-17 15:28:50 · 386 阅读 · 0 评论