爬虫
evan心诺在
本博客供大家交流,欢迎各抒己见。博文中的内容禁止用 于任何商业目的。如需转载博文,请尊重版权,注明本博客网址。 收起
展开
-
数据抓取 --Beautiful Soup库的使用问题(1)-find_all的使用
问题: 在使用正在表达式来定位tags的时候,能不能使用多条件的?答案是可以,而且使用起来很方便,会大大提高工作效率。举例:我现在要爬去寺库的包袋的网页链接数据,网址:http://list.secoo.com/bags/30-0-0-0-0-1-0-0-1-10-0-0.shtml#pageTitle代码如下:import requestsfrom bs4 import B...原创 2019-05-09 15:44:40 · 10161 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(6)使用多个属性寻找到对用的TAG,并提取数据
需求:根据TAG的多个属性,提取下面的 skuname 对应的stock 的数据。方法:'''第一步:识别出,要找的tag 是唯一的tag里面同时包含,属性 type='hidden',promotion_price,member_price。第二步:使用顶 find_all(属性1=某个字符串,属性2=re.compile(''),属性3=re.compi...原创 2019-08-14 17:08:10 · 604 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(5) - 使用关键字 找到对应的 TAG
需求:根据关键之找到货号的TAG,并爬取数值方法如下:'''第一步:使用正则 :re.compile() 包含关键字 ‘货号’ ''''''第二步:公式 soup.find(tag类型,text =pattern) 备注:用两次,第一次 使用 class_= 定位 ''''''第三部:货号的数据是在下一个 span , 所以直接用 next_s...原创 2019-08-14 14:42:31 · 345 阅读 · 0 评论 -
数据抓取 --requests库的使用问题 (1) 使用cookie 免密码账户登录
下面是一个需要登陆账户和密码后可以浏览的网站。 那么我们如何,在不需要登陆账户密码的情况下使用requests爬取网页信息呢?http://www.aanngg.com/index.php/Index/Index/category/kuanshi/2/clear/all/navPos/2步骤:STEP1: 使用CHROME登陆账户密码,找到COOKIE。STEP2: 在...原创 2019-08-07 11:22:34 · 577 阅读 · 0 评论 -
Python-爬虫Fiddler 模块:(2) Fiddler 状态码的含义
Fiddler 状态码的含义如下:原创 2019-08-05 11:38:14 · 413 阅读 · 0 评论 -
Python-爬虫Fiddler 模块:(1) Fiddler 常见标识符的意思
在使用fiddler的过程中,经常会有疑问,下面红色方框的标识符代表什么含义?下面是常见的标识符的解释原创 2019-08-05 10:19:56 · 1309 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(3) - 使用find或者find_all的时候 非class 或者 id 的时候定位出现问题。
数据抓取 --Beautiful Soup库的使用问题(2) 使用 find_all,Tag 和 find 基本解决爬虫中的95%以上有难度的需求在爬取数据的时候我们会使用find或者find_all 来定位tag标签的位置。举例:通常使用 class_ 或者 id 都能找到对应的。 # 5.前台价格 retail_price = soup.find(id=...原创 2019-07-24 23:31:00 · 896 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(2) 使用 find_all,Tag 和 find 基本解决爬虫中的95%以上有难度的需求
介绍学习完爬虫后很多小朋友会发现,大部分单一的方法是爬不到想要的数据。必须要混合使用才能解决问题。就如同高考的难题如果只用一种公式和知识点的话,大部分是做不出来的。本人基本使用 find_all,Tag 和 find 基本解决爬虫中的95%以上的需求。剩下的需求,基本用正则也就能解决了。解释下面是爬取某个网站商品信息和库存的完整代码。(顺便说一下,这个网站可以给公司带来300多万的营...原创 2019-07-07 23:22:43 · 5211 阅读 · 1 评论 -
使用selenium+chrome 爬取数据时出现的版本不兼容导致网页打不开或者无法运行
代码如下:from selenium import webdriverimport timechromeOptions = webdriver.ChromeOptions()browser = webdriver.Chrome(options=chromeOptions)browser.get('http://httpbin.org/ip')print(browser.pa...原创 2019-05-28 15:20:30 · 11747 阅读 · 4 评论 -
数据抓取 -- 使用代理IP爬取数据:(2):使用timeout 时要注意,防止数据加载不完整 ,导致爬取丢失(举例)
问题:在使用代理IP爬取数据的时候,经常会出现爬取的网址信息不完整的现象。其中有个原因就是timeout设置问题。代码如下:import requestsfrom bs4 import BeautifulSoupimport chardetimport reimport randomimport getIPa_from_rdsfrom datetime import *...原创 2019-05-10 17:10:45 · 9330 阅读 · 0 评论 -
Python-爬虫requests模块/beautisoup模块
1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text...原创 2019-05-15 11:40:14 · 7567 阅读 · 0 评论 -
数据抓取 -- 使用代理IP爬取数据:(1):即便代理IP只有1%的无效的情况下如何保证100%把数据爬取下来/while循环使用即便只有1%成功率的代理IP,也能确保爬下数据
为了防止反爬虫,我们一定会用到代理IP,但是代理IP是不稳定的,经常无效。这样会导致数据爬去失败。这里可以通过while,try,except 语句,制作个循环,确保数据爬取成功。使用下面代码就可以完成:code = 0while code <200: proxies = {'https': random.choice(proxies_list), ...原创 2019-05-10 10:36:34 · 8749 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(4)使用 TRY EXCEPT 时的踩过的坑!
下面是try和except 的使用的基本逻辑图。(这边不多解释基础知识)这里有个注意点:使用try 和 except 的里面的 ‘’‘新 ’‘’ 定义的列表,元组,字符串 是不共享的。 新的变量在try 和except的语句里面是并列关系的。举例:最底下边是爬取一个网站商品的SKU的库存的部分代码,使用的逻辑是,如果是多尺码,那么选...原创 2019-08-12 11:30:35 · 506 阅读 · 0 评论