爬虫
MaskOrange
1092681772
展开
-
亲测可用centos7.4 + python3.6+ ngnix+ uwsgi flask环境安装配置
centos7.4 + python3.6+ ngnix+ uwsgi flask环境安装配置nginx安装编译修改nginx.confuwsgi安装磕磕绊绊初学者踩过所有的坑69开了一年阿里云服务器安装之前需要依赖依赖,yum安装就完事了,网上很多这种nginx安装编译习惯在这个目录下安装程序cd /usr/localwget http://nginx.org/download/n...原创 2020-04-17 16:05:06 · 200 阅读 · 1 评论 -
搭建免费代理池
代理池搭建依赖数据库mongoDB本文请求头UserAgent未提供可以去这个网站找可用的复制https://fake-useragent.herokuapp.com/browsers/0.1.11import requestsfrom bs4 import BeautifulSoupfrom fake_useragent import UserAgentimport pymong...原创 2020-04-01 16:45:42 · 275 阅读 · 0 评论 -
requests入门简单爬虫(三)
众所周知http是无状态的协议,即每一次请求都是独立的,这样每一次请求访问服务器并不认得我们,所以引入了cookies,和session机制。爬虫如何解决需求:实现人人网获取“我的状态”# 第一种# 直接手动登录,浏览器中找到登录的cookies值,headers = cookies值 加入到请求头中response = requests.get(url, headers=header...原创 2019-11-07 15:50:24 · 116 阅读 · 0 评论 -
python爬虫例程
本文采用的是谷歌浏览器获取’User-Agent’:参加https://blog.csdn.net/orange_mask/article/details/97800094import requestsfrom bs4 import BeautifulSoupurl = "https://www.runoob.com/python/python-100-examples.html"...原创 2019-08-22 11:47:56 · 273 阅读 · 0 评论 -
requests入门简单爬虫
爬虫的仨步骤1.爬取网页2.数据提取/保存3.预处理需求:运用requests实现百度贴吧自定义获取指定页面任意打开一个吧https://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50关键在于找到数据的接口多翻几页分析发现最后得urlurl = 'https://tieba.baidu.com/f?kw=' + 搜索内容 +...原创 2019-09-16 19:50:28 · 115 阅读 · 0 评论 -
requests入门简单爬虫(二)
post的简单获取案例需求:百度翻译搜索翻译联想import requests# 所有字典的键由访问url实际id等确定def translate(url, kw): form_data = { "kw": kw } respond = requests.post(url, data=form_data) result_dic = res...原创 2019-09-16 20:28:07 · 96 阅读 · 0 评论 -
python requests爬取西刺代理,并运用
临时偷发不细说了 ua = UserAgent() headers = { 'User-Agent': ua.random } print(headers) http_p = random.choice(http_ip_pool) https_p = random.choice(https_ip_pool) proxies =...原创 2019-09-17 14:39:27 · 218 阅读 · 0 评论