爬虫
文章平均质量分 60
菜鸟阿都
自己学习软件时感觉思路有点混乱,所以写写博客整理一下思路。也可以和大家分享一下,
个人微信公众号:菜鸟阿都,欢迎一起交流学习
展开
-
免费ip代理池创建
反爬技术越来越成熟,为了爬取目标数据,必须对爬虫的请求进行伪装,骗过目标系统,目标系统通过判断请求的访问频次或请求参数将疑似爬虫的ip进行封禁,要求进行安全验证,通过python的第三方库faker可以随机生成header伪装请求头,并且减缓爬虫的爬取速度,能很好的避过多数目标系统的反扒机制,但对一些安全等级较高的系统,也有极大的可能ip被封禁,当ip被封禁后,通过更换代理ip便可以继续爬取,所以具有一个有效的ip代理池是非常重要的,网上有很多动态ip代理提供商,但如果能有一个自己免费的ip代...原创 2020-11-12 22:19:56 · 946 阅读 · 0 评论 -
python爬虫数据采集
近几年来,python的热度一直特别火!大学期间,也进行了一番深入学习,毕业后也曾试图把python作为自己的职业方向,虽然没有如愿成为一名python工程师,但掌握了python,也让我现如今的工作开展和职业发展更加得心应手。这篇文章主要与大家分享一下自己在python爬虫方面的收获与见解。 python爬虫是大家最为熟悉的一种python应用途径,由于python具有丰富的第三方开发库,所以它可以开展很多工作:比如 web开发(django)、应用程序开发(tkint...原创 2020-10-25 16:37:37 · 14504 阅读 · 6 评论 -
ssr订阅号获取
import requestsimport tracebackfrom faker import Fakerfrom fake_useragent import UserAgentimport timefrom lxml import etreeimport threadingimport sqlite3import datetimedef getData(): for i i...原创 2020-04-07 21:34:34 · 12289 阅读 · 1 评论 -
python爬虫及其他知识记录
pip install mysql-connector-python -i https://pypi.doubanio.com/simple数据库python2.5之后自带sqlite3数据库import sqlite3#不存在test.db数据库,就会自动重建conn = sqlite3.connect('test.db')c = conn.cursor()c.execute...原创 2020-03-30 20:40:38 · 360 阅读 · 0 评论 -
爬虫
#-*- coding:utf-8 -*-import urllib, urllib2import timefrom fake_useragent import UserAgentimport requestsimport threadingfrom bs4 import BeautifulSoupdef get_page_source(url): headers = {'User-Agen...原创 2018-05-04 23:11:05 · 651 阅读 · 1 评论