爬虫
傲慢与偏见·
这个作者很懒,什么都没留下…
展开
-
ip代理
import urllib.request# 1 0 2 50 3 100 4 150 5 200import json# import picklefrom lxml import etreeimport urllib.parseimport timexp1='//*[@id="list"]/table/tbody/tr/td[1]/text()'xp2='//*[@id="list"]/table/tbody/tr/td[2]/text()'url_kuai="https:原创 2020-10-12 11:43:25 · 266 阅读 · 0 评论 -
爬虫验证码登录三种方式
import requestsfrom bs4 import BeautifulSoup'''手动输入验证码:用浏览器登录古诗文网,抓包获取登录接口和form表单; 将验证码图片下载,输入验证码,加入form表单; 获取form表单所需参数; 带着form表单发送登录请求 注:需要建立会话'''headers = {'User-Agent': 'M原创 2020-09-23 18:02:55 · 792 阅读 · 0 评论 -
Python——安居客租房信息爬取(以南昌为例)
前言:提前安装好所需要的库。本代码的输入仅需要某个城市的租房地址首页即可,其他自会生成。使用前请创建所需的目录,或者为代码添加os.makedir()支持断点重爬,重行运行即可。headers等随运行环境不同,可能需要进行修改。本代码使用了高德API key,用于获取地理坐标,但发布时已略去,如需使用,请注册高德api开发者。内容原创,引用请注明出处。Note: http://www.cnblogs.com/shadrach; author: shadrach@yeah.net。# auth转载 2020-09-07 14:27:01 · 1533 阅读 · 0 评论 -
安居客租房价格字体反爬
import requestsfrom lxml import etreeimport reimport timeimport randomimport csvfrom fontTools.ttLib import TTFontimport base64import ioimport pandas as pd# 关闭InsecureRequestWarning提示import urllib3urllib3.disable_warnings()def decode_base64(f原创 2020-09-05 10:12:56 · 524 阅读 · 0 评论