爬虫
小菜菜1223
qq846792646
展开
-
Python Boss
1、cookie经常更换2、请求速度进行限制3、请求地址在js里#coding:utf-8import jsonimport timeimport urllibimport urllib2import refrom bs4 import BeautifulSoupimport requests #__author__='小菜菜1223' def run(h,...原创 2020-05-07 10:22:48 · 3890 阅读 · 0 评论 -
python python3 爬虫模板、爬虫功能大全
欢迎补充、欢迎点赞~~~#coding:utf-8import timeimport jsonimport randomimport requestsimport reimport osclass Spider: def __init__(self, main_url): self._main_url = main_url def ...原创 2019-10-23 20:18:44 · 338 阅读 · 0 评论 -
python requests解决图片视频音频下载、文件上传、获取cookies、使用ip代理、解决弹窗身份验证、忽略ssl
#coding:utf-8import requests#简单使用def demo(): r = requests.get('https://www.baidu.com') print (type(r)) print (r.status_code) #打印状态码 #print (r.text) #打印html内容 print (r.cookies)...原创 2019-10-23 17:57:47 · 839 阅读 · 0 评论 -
python 爬虫忽略不信任证书
当爬虫遇到了像12306这种不信任证书的情况时,一般爬取会返回证书异常,因为12306的证书是自己颁发的而不是CA的。解决:from urllib.request import Request, urlopenimport sslrequest = Request('http://www.12306.cn/normhweb')request.add_header( 'U...原创 2019-09-29 15:39:50 · 988 阅读 · 0 评论 -
python bs4/BeautifulSoup TypeError: an integer is required
前提: 今天在使用bs4做爬虫的时候使用的IDLE进行的桌面爬虫 执行了一段代码: 看似很简单的代码,报错了:找到了原因,这是IDLE的BUG,这样解决:print unicode(name)print str(name)...原创 2019-09-06 09:06:55 · 157 阅读 · 0 评论 -
Python UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:
前提:最近在做爬虫的时候r=requests.post('http://zhongrui.101test.com/store/getQuestions',headers=headers,json=data)html = json.loads(r.text)title = i['choice']['title'].strip('<pre>').strip('</p...原创 2019-09-05 09:25:58 · 563 阅读 · 0 评论 -
Python 爬取虎扑爆照区图片
#coding:utf-8import requestsimport jsonimport timeimport reimport osfrom bs4 import BeautifulSoupurl = 'https://bbs.hupu.com/'def get_article_html(page): url = 'https://bbs.hupu.com/se...原创 2018-12-14 13:45:54 · 431 阅读 · 0 评论 -
Scrapy 爬取图片实例
目标:360摄影美图创建scrapy:scrapy startproject images360创建spider:scrapy genspider images images.so.com修改代码:修改spider:修改images.py:代码是根据下拉网页的AJAX请求分析出来的。# -*- coding: utf-8 -*-from scrapy import ...原创 2018-11-07 13:55:05 · 498 阅读 · 0 评论 -
通过Nginx进行的爬虫反爬虫
https://mp.weixin.qq.com/s/Y25_TRrKmVlTMvPrQja_cg转载 2018-11-06 10:08:51 · 2255 阅读 · 0 评论 -
python 爬虫之模拟登陆
import requestsdef run(): url = "http://jira.1handcar.com:14001/secure/BrowseProjects.jspa" headers = {'Host':'jira.1handcar.com:14001','Cookie':'__utmz=1.1513733571.1.1.utmcsr=(direct...原创 2018-10-25 11:15:31 · 400 阅读 · 0 评论 -
汽车之家爬虫实例
import jsonimport timeimport urllibimport urllib2import re#获取城市列表url='https://dealer.autohome.com.cn/DealerList/GetAreasAjax?provinceId=340000&cityId=0&brandid=0&manufactoryid=0&...原创 2018-07-25 08:33:56 · 2155 阅读 · 0 评论 -
python 爬取淘宝商品
#coding:utf-8from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_condit...原创 2018-07-17 10:17:14 · 277 阅读 · 0 评论 -
Python爬虫之-智联招聘网站
爬着玩玩用的,这个做的不好,还爬取过前程无忧是认真做的~#coding:utf-8import reimport jsonimport xlwtimport timeimport urllib,urllib2h=open('zhaopin.txt','a')#__authour__:小菜菜1223def run(num): url='https://sou.zhaopi...原创 2018-05-21 17:39:04 · 502 阅读 · 0 评论 -
Python爬虫之-前程无忧招聘网站(可运行源码)
今天爬了前程无忧,分享下代码~可以直接运行的,也很简单,就不做注释了。原创:禁止转载2019-09-05更新--------------------------- 今天有人关注了这个代码 之前的代码都是刚开始学习的时候写的,自己都有点看不下去哈哈,现在贴一个简单些的代码,大家一起进步哈哈~#coding:utf-8import jsonimport timeim...原创 2018-05-21 17:07:23 · 4989 阅读 · 7 评论