爬虫
文章平均质量分 50
Black_God1
我个人喜欢看一些技术或方法,愿技术改变生活!
展开
-
[Python爬虫]使用Scrapy框架爬取微博
Scrapy框架爬取微博简介包Scrapy框架main.py(启动文件)setting.py(配置文件)pq.py(项目文件)话题小组模块模板图片模块用户模块视频模块(未找到视频接口)文章模块(未做)pipelines.py(存储)pic下载器items.py (调节)效果话题 效果图图片 效果图用户/找人 效果图视频 效果图简介大家好! 这是我又在一次的使用Scrapy框架进行爬取微博,这里我将微博模块化方便大家使用和理解这里我分成【找人,文章,视频,图片,话题小组】5个模块。包老规矩需要的包如下原创 2020-11-23 04:52:32 · 1310 阅读 · 0 评论 -
[python爬虫]爬取微信公众号
爬取微信公众号微信公众号接口使用的包需要的三个文件(Account、cookie、list)代码如下显示结果总 结微信公众号接口 目前是个功能需要一个微信号并且允许网页微信登陆,我们就是利用网页微信进行爬取公众号; 用selenium.webdriver进行 模拟登陆需要二维码扫描验证,这是唯一一个比较麻烦做自动障碍; 目前我可以想到用手机虚拟机进行登陆微信一直登陆着进行脚本扫码的操作;(自动脚本还没写)使用的包from selenium import webdriverimport tim原创 2020-10-26 15:17:10 · 1461 阅读 · 3 评论 -
python爬虫]爬取抖音推荐人或粉丝信息
Scrapy框架爬取微信公众号微信公众号接口使用的包需要的文件有3个文件(cookie,Account,list)Scrapy框架mainhotel微信公众号接口 目前一直更变我所使用的是模拟登陆保留cookie信息进行爬取,缺点是cookie是有过期的; 目前想解决这个问题只能用模拟手机一直登陆微信账号随时进行扫码验证。使用的包from selenium import webdriverimport os,json,time,random,reimport requestsfrom ..原创 2020-10-26 14:09:34 · 3437 阅读 · 4 评论 -
[python爬虫]多进程爬取喜马拉雅音乐
导包import json,osfrom piaot import *from multiprocessing import Pooldef pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision...原创 2018-08-21 00:20:35 · 660 阅读 · 0 评论 -
[Python爬虫]Scrapy框架爬取bilibili个人信息
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl bili_gr_xx'.split())执行spider下的爬取文件# -*- coding: utf-8 -*-import scrapy,jsonfrom .. import itemsclass BiliGrXxSpider(s...原创 2018-08-28 00:13:28 · 3890 阅读 · 0 评论 -
[Python爬虫]爬取拉勾网存储到Mysql
说明为什么不用Scrapy框架写呢?为什么不用多进程爬取的呢? 拉钩的反爬机制不让多进程爬取,试了很多方法就算开2个进程都不行,太快了被检测出来了~~当然代理也试了,哎!!!重要的是单进程爬取不上代理也不封杀,这有点可疑!,人家请注意也可以投毒(就是假数据)导包 from piaot import * #导入的自定义包 import requests,js...原创 2018-08-27 23:27:17 · 518 阅读 · 0 评论 -
[伪装浏览器报头]html爬虫伪装头
共99个伪装['Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36', 'Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37...原创 2018-08-23 20:56:17 · 2028 阅读 · 0 评论 -
[python爬虫]爬虫西刺ip代理
西刺代理网页是:http://www.xicidaili.com/nn注意: 1.西刺代理千万别用代理爬取,目前我使用66代理和西刺代理是无法爬取的西刺网页的 2.一定要加User-Agent报头1.从网页爬取到csv文件代码from urllib import request #导request包from piaot import * #导自...原创 2018-08-23 21:19:09 · 746 阅读 · 0 评论 -
[Python爬虫]Scrapy框架爬取网易国内新闻
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl wangyi'.split())执行spider文件下的爬取文件# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import * #导入自定义包from ..ite...原创 2018-08-28 14:10:50 · 1939 阅读 · 0 评论 -
[Python爬虫]使用Scrapy框架爬取图虫图片
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl tuchong'.split())在spiders下的执行爬虫文件# -*- coding: utf-8 -*-import scrapy,jsonfrom ..items import tu_baoc #实例化函数class T...原创 2018-08-28 14:21:10 · 902 阅读 · 1 评论 -
[Python爬虫]使用Scrapy框架爬取淘宝
说明:这里我们只爬取了淘宝的列表页和宝贝的链接,名称,价格,销量,图片地址。如果有需求爬取内容页,自行添加启动文件mian.pytaobao_wang是我自己建的执行文件名from scrapy.cmdline import executeexecute('scrapy crawl taobao_wang'.split())在spiders下的执行文件taoba...原创 2018-08-28 22:38:41 · 4845 阅读 · 2 评论 -
[Python爬虫]使用Scrapy框架爬取糗事百科
启动main.py文件说明qiushi是执行文件名from scrapy.cmdline import executeexecute('scrapy crawl qiushi'.split())在spiders文件夹下执行文件qiushi.py(自己创建)# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import...原创 2018-08-28 22:48:57 · 530 阅读 · 0 评论 -
爬取中国木业企业大全
使用的是urllib爬取这个里我导入的包首先我们需要看爬取的网页是以什么样的请求如何获取网页内容爬取内容信息页面存储函数开启进程池这个里我导入的包from urllib import requestfrom lxml import etreeimport random,refrom multiprocessing import Poolimport pandas as pd首先...原创 2019-06-18 10:27:14 · 390 阅读 · 0 评论 -
[python爬虫]爬取电影天堂连接
导包import requests,re,chardet,pymysqlfrom piaot import *获取首页一共有多少个分类def shoye(): url='http://www.dytt8.net/html/gndy/dyzz/index.html' headers={ "User-Agent":pa() } req=r...原创 2018-08-20 16:32:57 · 3408 阅读 · 0 评论 -
[python爬虫]爬取我爱我家租房信息
导包import re,chardet,pymysqlfrom piaot import *from urllib import parse主函数,输入值ye是页数def woaijia(name,ye): # 将name值转成url编码 uname=parse.quote(name) # 判断一下是否是第1页,因为第一页和第2页格式不同 if...原创 2018-08-20 16:29:02 · 2340 阅读 · 0 评论 -
有道翻译的接口
import time import random import json from piaot import post这个包是伪装和post、get的自定义包 from piaot import postdef md5_my(need_str): import hashlib# 创建md5对象md5_o = hashlib.md5()sign_bytes...原创 2018-08-14 22:23:10 · 1744 阅读 · 0 评论 -
cookie的存储及获取
导包 from urllib import request from http import cookiejar#声明一个CookieJar对象实例来保存cookie cookie = cookiejar.CookieJar()利用urllib库中的request的HTTPCookieProcessor对象来创建cookie处理器 handler=requ...原创 2018-08-15 00:11:35 · 386 阅读 · 0 评论 -
爬虫网页伪装代码(列表形式,可以直接使用)
[‘Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36’, ‘Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049....原创 2018-08-13 09:35:06 · 1752 阅读 · 0 评论 -
[python爬虫]爬寻雪球网
from urllib import request,parse from piaot import * import json import pymysqlyeshu是输入的页数def sql(sql_z): # 打开数据库连接 db = pymysql.connect(“192.168.43.128”, “root”, “123456”, “xq”, ch...原创 2018-08-16 23:33:06 · 1186 阅读 · 0 评论 -
用Python的requests开启百度的翻译端口代码
import requests from urllib import request import json确定链接网站url=’http://fanyi.baidu.com/sug’请输入想要翻译的成语x=str(input(‘输入:’))将输入的值放到data里进行传递form={‘kw’:x}调用封装好的post函数req=requests...原创 2018-08-16 23:34:21 · 416 阅读 · 0 评论 -
[python爬虫]爬取今日头条,例子:街拍将图片存到本地文件夹里
import requests,json,os,time,re from urllib import request from piaot import *提交post,翻页,因为是瀑布流def post_pq(url):headers = { "User-Agent": pa()}# 用post方法调用a = requests.post(url, headers...原创 2018-08-16 23:44:20 · 901 阅读 · 0 评论 -
[python爬虫]爬取boss直聘并且存到Mysql数据库里
导包import chardet,re,json,pymysqlfrom urllib import request,parsefrom piaot import *Mysqldef sql(sql_z): # 打开数据库连接 db = pymysql.connect("192.168.43.128", "root", "123456", "boss", ch...原创 2018-08-22 22:41:30 · 1468 阅读 · 0 评论 -
Scrapy的架构[图解]
这就是整个Scrapy的架构图了;Scrapy机构流程过程Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item PipelineScrapy Engine(引擎): 这是引擎,负责Spiders、ItemPipeline、Do...原创 2018-08-27 09:52:40 · 493 阅读 · 0 评论 -
Scrapy架构下载及安装
Scrapy架构下载pip install scrapy下载安装成功查看:会显示版本号scrapy图片: 如果安装失败1.缺少什么文件执行下面:pip install wheel2.在windows环境,python下使用命令行安装模块pip install Twisted如果报错 Unable to find vcvarsall.bat...原创 2018-08-27 10:15:27 · 335 阅读 · 0 评论 -
[python爬虫]Scrapy架构的使用
创建一个Scrapy项目我是在PyCharm的命令行执行,创建项目文件之前可以自定义文件地址创建scrapy项目文件夹(目录)scrapy startproject 文件夹名称建立项目文件时需要在scrapy项目文件夹下建立,文件夹名称:就是创建项目文件夹的名称cd 文件夹名称建立项目文件scrapy genspider 运行文件名 爬取的网页地址这样就创建成功了...原创 2018-08-27 11:07:51 · 289 阅读 · 0 评论 -
[python爬虫]喜马拉雅音乐
导包import json,os,time from piaot import *def pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision/album/getTracksList?albumI...原创 2018-08-20 14:12:56 · 606 阅读 · 0 评论 -
[python伪装定义包]伪装包
-- coding: UTF-8 --import random from urllib import request,parse import re,os from urllib.error import HTTPError,URLError伪装浏览器def pa(): with open(‘C:/Users/黑神/Desktop/爬虫/html爬虫伪装头.txt...原创 2018-08-14 08:21:58 · 902 阅读 · 0 评论