爬虫_evan心诺在的博客-CSDN博客

爬虫

关注

关注数：文章数：13 文章阅读量：57414 文章收藏量：18

作者: evan心诺在

本博客供大家交流，欢迎各抒己见。博文中的内容禁止用于任何商业目的。如需转载博文，请尊重版权，注明本博客网址。收起

展开

数据抓取 --Beautiful Soup库的使用问题（1）-find_all的使用

问题：在使用正在表达式来定位tags的时候，能不能使用多条件的？答案是可以，而且使用起来很方便，会大大提高工作效率。举例：我现在要爬去寺库的包袋的网页链接数据，网址：http://list.secoo.com/bags/30-0-0-0-0-1-0-0-1-10-0-0.shtml#pageTitle代码如下：import requestsfrom bs4 import B...

原创 2019-05-09 15:44:40 · 10161 阅读 · 0 评论
数据抓取 --Beautiful Soup库的使用问题（6）使用多个属性寻找到对用的TAG，并提取数据

需求：根据TAG的多个属性，提取下面的 skuname 对应的stock 的数据。方法：'''第一步：识别出，要找的tag 是唯一的tag里面同时包含，属性 type='hidden'，promotion_price，member_price。第二步：使用顶 find_all(属性1=某个字符串，属性2=re.compile('')，属性3=re.compi...

原创 2019-08-14 17:08:10 · 604 阅读 · 0 评论
数据抓取 --Beautiful Soup库的使用问题（5） - 使用关键字找到对应的 TAG

需求：根据关键之找到货号的TAG，并爬取数值方法如下：'''第一步：使用正则：re.compile() 包含关键字 ‘货号’ ''''''第二步：公式 soup.find(tag类型，text =pattern) 备注：用两次，第一次使用 class_= 定位 ''''''第三部：货号的数据是在下一个 span ，所以直接用 next_s...

原创 2019-08-14 14:42:31 · 345 阅读 · 0 评论
数据抓取 --requests库的使用问题 (1) 使用cookie 免密码账户登录

下面是一个需要登陆账户和密码后可以浏览的网站。那么我们如何，在不需要登陆账户密码的情况下使用requests爬取网页信息呢？http://www.aanngg.com/index.php/Index/Index/category/kuanshi/2/clear/all/navPos/2步骤：STEP1: 使用CHROME登陆账户密码，找到COOKIE。STEP2: 在...

原创 2019-08-07 11:22:34 · 577 阅读 · 0 评论
Python-爬虫Fiddler 模块：（2） Fiddler 状态码的含义

Fiddler 状态码的含义如下：

原创 2019-08-05 11:38:14 · 413 阅读 · 0 评论
Python-爬虫Fiddler 模块：（1） Fiddler 常见标识符的意思

在使用fiddler的过程中，经常会有疑问，下面红色方框的标识符代表什么含义？下面是常见的标识符的解释

原创 2019-08-05 10:19:56 · 1309 阅读 · 0 评论
数据抓取 --Beautiful Soup库的使用问题（3） - 使用find或者find_all的时候非class 或者 id 的时候定位出现问题。

数据抓取 --Beautiful Soup库的使用问题（2）使用 find_all，Tag 和 find 基本解决爬虫中的95%以上有难度的需求在爬取数据的时候我们会使用find或者find_all 来定位tag标签的位置。举例：通常使用 class_ 或者 id 都能找到对应的。 # 5.前台价格 retail_price = soup.find(id=...

原创 2019-07-24 23:31:00 · 896 阅读 · 0 评论
数据抓取 --Beautiful Soup库的使用问题（2）使用 find_all，Tag 和 find 基本解决爬虫中的95%以上有难度的需求

介绍学习完爬虫后很多小朋友会发现，大部分单一的方法是爬不到想要的数据。必须要混合使用才能解决问题。就如同高考的难题如果只用一种公式和知识点的话，大部分是做不出来的。本人基本使用 find_all，Tag 和 find 基本解决爬虫中的95%以上的需求。剩下的需求，基本用正则也就能解决了。解释下面是爬取某个网站商品信息和库存的完整代码。（顺便说一下，这个网站可以给公司带来300多万的营...

原创 2019-07-07 23:22:43 · 5211 阅读 · 1 评论
使用selenium+chrome 爬取数据时出现的版本不兼容导致网页打不开或者无法运行

代码如下：from selenium import webdriverimport timechromeOptions = webdriver.ChromeOptions()browser = webdriver.Chrome(options=chromeOptions)browser.get('http://httpbin.org/ip')print(browser.pa...

原创 2019-05-28 15:20:30 · 11747 阅读 · 4 评论
数据抓取 -- 使用代理IP爬取数据：（2）：使用timeout 时要注意，防止数据加载不完整，导致爬取丢失（举例）

问题:在使用代理IP爬取数据的时候，经常会出现爬取的网址信息不完整的现象。其中有个原因就是timeout设置问题。代码如下：import requestsfrom bs4 import BeautifulSoupimport chardetimport reimport randomimport getIPa_from_rdsfrom datetime import *...

原创 2019-05-10 17:10:45 · 9330 阅读 · 0 评论
Python-爬虫requests模块/beautisoup模块

1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text...

原创 2019-05-15 11:40:14 · 7567 阅读 · 0 评论
数据抓取 -- 使用代理IP爬取数据：（1）：即便代理IP只有1%的无效的情况下如何保证100%把数据爬取下来/while循环使用即便只有1%成功率的代理IP，也能确保爬下数据

为了防止反爬虫，我们一定会用到代理IP，但是代理IP是不稳定的，经常无效。这样会导致数据爬去失败。这里可以通过while，try,except 语句，制作个循环，确保数据爬取成功。使用下面代码就可以完成:code = 0while code <200: proxies = {'https': random.choice(proxies_list), ...

原创 2019-05-10 10:36:34 · 8749 阅读 · 0 评论
数据抓取 --Beautiful Soup库的使用问题（4）使用 TRY EXCEPT 时的踩过的坑！

下面是try和except 的使用的基本逻辑图。（这边不多解释基础知识）这里有个注意点：使用try 和 except 的里面的 ‘’‘新 ’‘’ 定义的列表，元组，字符串是不共享的。新的变量在try 和except的语句里面是并列关系的。举例：最底下边是爬取一个网站商品的SKU的库存的部分代码，使用的逻辑是，如果是多尺码，那么选...

原创 2019-08-12 11:30:35 · 506 阅读 · 0 评论

爬虫

作者: evan心诺在

数据抓取 --Beautiful Soup库的使用问题（1）-find_all的使用

数据抓取 --Beautiful Soup库的使用问题（6）使用多个属性寻找到对用的TAG，并提取数据

数据抓取 --Beautiful Soup库的使用问题（5） - 使用关键字 找到对应的 TAG

数据抓取 --requests库的使用问题 (1) 使用cookie 免密码账户登录

Python-爬虫Fiddler 模块：（2） Fiddler 状态码的含义

Python-爬虫Fiddler 模块：（1） Fiddler 常见标识符的意思

数据抓取 --Beautiful Soup库的使用问题（3） - 使用find或者find_all的时候 非class 或者 id 的时候定位出现问题。

数据抓取 --Beautiful Soup库的使用问题（2） 使用 find_all，Tag 和 find 基本解决爬虫中的95%以上有难度的需求

使用selenium+chrome 爬取数据时出现的版本不兼容导致网页打不开或者无法运行

数据抓取 -- 使用代理IP爬取数据：（2）：使用timeout 时要注意，防止数据加载不完整 ，导致爬取丢失（举例）

Python-爬虫requests模块/beautisoup模块

数据抓取 -- 使用代理IP爬取数据：（1）：即便代理IP只有1%的无效的情况下如何保证100%把数据爬取下来/while循环使用即便只有1%成功率的代理IP，也能确保爬下数据

数据抓取 --Beautiful Soup库的使用问题（4）使用 TRY EXCEPT 时的踩过的坑！

数据抓取 --Beautiful Soup库的使用问题（5） - 使用关键字找到对应的 TAG

数据抓取 --Beautiful Soup库的使用问题（3） - 使用find或者find_all的时候非class 或者 id 的时候定位出现问题。

数据抓取 --Beautiful Soup库的使用问题（2）使用 find_all，Tag 和 find 基本解决爬虫中的95%以上有难度的需求

数据抓取 -- 使用代理IP爬取数据：（2）：使用timeout 时要注意，防止数据加载不完整，导致爬取丢失（举例）