![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
evan心诺在
本博客供大家交流,欢迎各抒己见。博文中的内容禁止用 于任何商业目的。如需转载博文,请尊重版权,注明本博客网址。 收起
展开
-
数据库 用Python把数据写入到MySQL数据库/如何使用Python将数据写入到阿里云的RDS-MYSQL
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_42555401需要解决的问题:1.用Python把数据写入到MySQL数据库?2.用Python将数据写入到阿里云的RDS-MySQL数据库内?3.如何将爬取的数据写入到数据库?4.如何将爬起的代理IP写入到阿里云RDS或者本地Mysql数据库内?实际上这几个...原创 2019-04-26 23:38:02 · 16596 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(3) - 使用find或者find_all的时候 非class 或者 id 的时候定位出现问题。
数据抓取 --Beautiful Soup库的使用问题(2) 使用 find_all,Tag 和 find 基本解决爬虫中的95%以上有难度的需求在爬取数据的时候我们会使用find或者find_all 来定位tag标签的位置。举例:通常使用 class_ 或者 id 都能找到对应的。 # 5.前台价格 retail_price = soup.find(id=...原创 2019-07-24 23:31:00 · 885 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(2) 使用 find_all,Tag 和 find 基本解决爬虫中的95%以上有难度的需求
介绍学习完爬虫后很多小朋友会发现,大部分单一的方法是爬不到想要的数据。必须要混合使用才能解决问题。就如同高考的难题如果只用一种公式和知识点的话,大部分是做不出来的。本人基本使用 find_all,Tag 和 find 基本解决爬虫中的95%以上的需求。剩下的需求,基本用正则也就能解决了。解释下面是爬取某个网站商品信息和库存的完整代码。(顺便说一下,这个网站可以给公司带来300多万的营...原创 2019-07-07 23:22:43 · 5158 阅读 · 1 评论 -
使用selenium+chrome 爬取数据时出现的版本不兼容导致网页打不开或者无法运行
代码如下:from selenium import webdriverimport timechromeOptions = webdriver.ChromeOptions()browser = webdriver.Chrome(options=chromeOptions)browser.get('http://httpbin.org/ip')print(browser.pa...原创 2019-05-28 15:20:30 · 11688 阅读 · 4 评论 -
数据抓取 -- 使用代理IP爬取数据:(2):使用timeout 时要注意,防止数据加载不完整 ,导致爬取丢失(举例)
问题:在使用代理IP爬取数据的时候,经常会出现爬取的网址信息不完整的现象。其中有个原因就是timeout设置问题。代码如下:import requestsfrom bs4 import BeautifulSoupimport chardetimport reimport randomimport getIPa_from_rdsfrom datetime import *...原创 2019-05-10 17:10:45 · 9296 阅读 · 0 评论 -
Python-爬虫requests模块/beautisoup模块
1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text...原创 2019-05-15 11:40:14 · 7542 阅读 · 0 评论 -
数据抓取 -- 使用代理IP爬取数据:(1):即便代理IP只有1%的无效的情况下如何保证100%把数据爬取下来/while循环使用即便只有1%成功率的代理IP,也能确保爬下数据
为了防止反爬虫,我们一定会用到代理IP,但是代理IP是不稳定的,经常无效。这样会导致数据爬去失败。这里可以通过while,try,except 语句,制作个循环,确保数据爬取成功。使用下面代码就可以完成:code = 0while code <200: proxies = {'https': random.choice(proxies_list), ...原创 2019-05-10 10:36:34 · 8724 阅读 · 0 评论 -
PYTHON - while True的用法/while True在账户登陆的应用。
while True 是python中经常会被应用到。下面通过个例子进行解释:下面是阿里云的子账户登陆界面,在输入账户时候会要求,账户名称内必须包含 ’ @ ‘,否者认为是无效账户,并提示要重新输入账户。#方法一:name = input("请输入您的用户名:")if '@'not in name: print('您输入的用户名格式不正确,请重新输入')...原创 2019-04-24 09:34:10 · 52413 阅读 · 1 评论 -
Python 内置函数 filter()
假设出现异常收到一个10万条类脏数据,类似底下:information = [158804023652,'evan','互联网行业','阿里巴巴',15625445635,15884236525.............]现在我们需要把电话号码提取出来,并且写入到数据库内(其它客户的其它信息可以通过日志和表的关系提取出来。。。此处略 过.....)。这里需要用到一个函数...原创 2019-04-27 23:13:34 · 12322 阅读 · 0 评论 -
数据抓取 --Beautiful Soup库的使用问题(4)使用 TRY EXCEPT 时的踩过的坑!
下面是try和except 的使用的基本逻辑图。(这边不多解释基础知识)这里有个注意点:使用try 和 except 的里面的 ‘’‘新 ’‘’ 定义的列表,元组,字符串 是不共享的。 新的变量在try 和except的语句里面是并列关系的。举例:最底下边是爬取一个网站商品的SKU的库存的部分代码,使用的逻辑是,如果是多尺码,那么选...原创 2019-08-12 11:30:35 · 480 阅读 · 0 评论