![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Jepson2017
这个作者很懒,什么都没留下…
展开
-
天天基金网每日关注基金数据爬取
import requestsimport jsonimport loggingimport datetimeimport timeFORMAT = '%(asctime)s %(threadName)s %(message)s'logging.basicConfig(format=FORMAT, level=logging.INFO)# fundcode:基金代码# name:基金名称# jzrq:前一个交易日日期# dwjz:前一个交易日基金净值# gsz:当前交易日的基金原创 2021-01-09 17:10:45 · 509 阅读 · 0 评论 -
python访问需要登录的页面
python访问登录后的页面,如药智网:https://www.yaozh.com/,访问登录后的个人中心页面:https://www.yaozh.com/member/方法一:用浏览器登录后,将cookie复制下来放在请求头中import requestsheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987原创 2021-09-12 19:38:02 · 1918 阅读 · 0 评论 -
python中json的使用
json模块JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。Python 中可以使用 json 模块来对 JSON 数据进行编解码,它主要提供了四个方法: dumps、dump、loads、loadjson.loads:字符串(标准json格式)转换成 dict list:import jsondata = '[{"name":"张三","age":20},{"name":"李四","age":19},{"name":"小文","age":21}]原创 2021-09-09 22:13:45 · 1071 阅读 · 0 评论 -
python BeautifulSoup的使用
1.BeautifulSoup简介Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方原创 2021-09-08 15:52:37 · 2699 阅读 · 0 评论 -
每天爬取黄金价格,并自动发送到邮箱
每天爬取黄金价格,并自动发送到邮箱# -*- coding: utf-8 -*-import smtplibfrom email.mime.text import MIMETextfrom email.header import Headerimport urllib.requestimport reimport datetime#黄金网站url = "http://...原创 2018-05-24 10:07:16 · 6806 阅读 · 2 评论 -
BOSS直聘招聘信息爬取
import urllibimport requestsimport timeimport randomfrom bs4 import BeautifulSoupimport sslssl._create_default_https_context = ssl._create_unverified_contextpage_headers={ 'User-Agent...原创 2019-06-10 23:31:06 · 6193 阅读 · 2 评论 -
安居客新房信息爬取
本文实现爬取安居客二手房房源信息,并保存到本地csv文本中爬取网址:https://tj.fang.anjuke.com/loupan/all/(天津新房)#使用模块:BeautifulSoupimport requestsimport mathimport timeimport randomfrom bs4 import BeautifulSoupimport sslssl._...原创 2019-06-08 16:11:37 · 8906 阅读 · 3 评论 -
站长之家最新备案域名信息爬取
本文实现每日爬取站长之家最新备案域名信息,并保存到本地爬取地址:http://icp.chinaz.com/provinces实现代码:# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport datetimeuri = "http://icp.chinaz.com/provinces?prov...原创 2018-06-19 16:28:02 · 4747 阅读 · 1 评论 -
安居客二手房信息爬取
安居客二手房信息爬取本文实现爬取安居客二手房房源信息,并保存到本地csv文本中爬取网址:https://tianjin.anjuke.com/sale/hexi/(天津河西区二手房房源)思路 1.构造请求地址:通过分析网站,可发现页面规律url="https://tianjin.anjuke.com/sale/hexi/p"+str(i)#i为第i页2.页面内容 ...原创 2018-05-21 20:10:57 · 8773 阅读 · 6 评论 -
豆瓣影评信息爬取
爬取豆瓣影评信息原创 2018-04-08 22:18:58 · 2401 阅读 · 0 评论 -
用python爬取微信公众号文章
本文通过微信提供的公众号文章调用接口,实现爬取公众号文章的功能。原创 2017-07-23 13:31:30 · 82923 阅读 · 74 评论 -
用Python爬取个人微信朋友信息
利用Python的itchat包爬取个人微信号的朋友信息,并将信息保存在本地文本中原创 2017-07-16 14:02:39 · 18359 阅读 · 4 评论 -
用Python爬取拉钩网招聘职位信息
本文实现自动爬取拉钩网招聘信息,并将信息保存在本地文本中原创 2017-07-15 18:42:44 · 5436 阅读 · 0 评论 -
用Python爬取淘宝商品
本文爬取淘宝女装短裙商品,并将商品信息存入mysql中原创 2017-07-07 00:01:40 · 24639 阅读 · 32 评论 -
招标网招标信息爬取
本文实现在招标网站上爬取指定关键词的招标信息#采购与招标信息网#https://www.chinabidding.cn/#中国电信外部门户招标信息#https://42.99.33.26/MSS-PORTAL/account/login.do#中国移动采购与招标网#https://b2b.10086.cn/b2b/main/showBiao!preIndex.html?noti...原创 2018-05-21 23:24:42 · 19993 阅读 · 21 评论 -
创建代理IP池
从西刺代理IP网站爬取代理IPimport urllib.requestimport urllib.parse import time from multiprocessing import Pool#多进程import randomfrom lxml import etree #xpath提取import datetime#功能:随机获取HTTP_User_Agent...原创 2019-07-21 17:58:38 · 440 阅读 · 1 评论