python
Black_God1
我个人喜欢看一些技术或方法,愿技术改变生活!
展开
-
[python爬虫]爬取微信公众号
爬取微信公众号微信公众号接口使用的包需要的三个文件(Account、cookie、list)代码如下显示结果总 结微信公众号接口 目前是个功能需要一个微信号并且允许网页微信登陆,我们就是利用网页微信进行爬取公众号; 用selenium.webdriver进行 模拟登陆需要二维码扫描验证,这是唯一一个比较麻烦做自动障碍; 目前我可以想到用手机虚拟机进行登陆微信一直登陆着进行脚本扫码的操作;(自动脚本还没写)使用的包from selenium import webdriverimport tim原创 2020-10-26 15:17:10 · 1643 阅读 · 3 评论 -
[python爬虫]爬虫西刺ip代理
西刺代理网页是:http://www.xicidaili.com/nn注意: 1.西刺代理千万别用代理爬取,目前我使用66代理和西刺代理是无法爬取的西刺网页的 2.一定要加User-Agent报头1.从网页爬取到csv文件代码from urllib import request #导request包from piaot import * #导自...原创 2018-08-23 21:19:09 · 784 阅读 · 0 评论 -
[Python爬虫]Scrapy框架爬取网易国内新闻
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl wangyi'.split())执行spider文件下的爬取文件# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import * #导入自定义包from ..ite...原创 2018-08-28 14:10:50 · 1995 阅读 · 0 评论 -
[Python爬虫]使用Scrapy框架爬取图虫图片
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl tuchong'.split())在spiders下的执行爬虫文件# -*- coding: utf-8 -*-import scrapy,jsonfrom ..items import tu_baoc #实例化函数class T...原创 2018-08-28 14:21:10 · 1009 阅读 · 1 评论 -
[Python爬虫]使用Scrapy框架爬取淘宝
说明:这里我们只爬取了淘宝的列表页和宝贝的链接,名称,价格,销量,图片地址。如果有需求爬取内容页,自行添加启动文件mian.pytaobao_wang是我自己建的执行文件名from scrapy.cmdline import executeexecute('scrapy crawl taobao_wang'.split())在spiders下的执行文件taoba...原创 2018-08-28 22:38:41 · 5019 阅读 · 2 评论 -
[Python爬虫]使用Scrapy框架爬取糗事百科
启动main.py文件说明qiushi是执行文件名from scrapy.cmdline import executeexecute('scrapy crawl qiushi'.split())在spiders文件夹下执行文件qiushi.py(自己创建)# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import...原创 2018-08-28 22:48:57 · 563 阅读 · 0 评论 -
SPSS Modeler 和spss statistics有什么不同
Modeler是数据挖掘statistics是统计分析Modeler是數據挖掘statistics是統計分析 两者的区别 表面的直接区别是在处理数据的量上有区别,statistics的处理数据量有限,而modeler处理数据的量可以是海量,也就是现在吵得沸沸腾腾的大数据 本质的一些区别是功能上的,modeler包括有统计分析的部分,也有机器学习和人工智能的部分 而sta...原创 2018-08-28 23:22:40 · 10738 阅读 · 1 评论 -
爬取中国木业企业大全
使用的是urllib爬取这个里我导入的包首先我们需要看爬取的网页是以什么样的请求如何获取网页内容爬取内容信息页面存储函数开启进程池这个里我导入的包from urllib import requestfrom lxml import etreeimport random,refrom multiprocessing import Poolimport pandas as pd首先...原创 2019-06-18 10:27:14 · 545 阅读 · 0 评论 -
[伪装浏览器报头]html爬虫伪装头
共99个伪装['Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36', 'Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37...原创 2018-08-23 20:56:17 · 2092 阅读 · 0 评论 -
[python爬虫]爬取boss直聘并且存到Mysql数据库里
导包import chardet,re,json,pymysqlfrom urllib import request,parsefrom piaot import *Mysqldef sql(sql_z): # 打开数据库连接 db = pymysql.connect("192.168.43.128", "root", "123456", "boss", ch...原创 2018-08-22 22:41:30 · 1535 阅读 · 0 评论 -
Scrapy的架构[图解]
这就是整个Scrapy的架构图了;Scrapy机构流程过程Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item PipelineScrapy Engine(引擎): 这是引擎,负责Spiders、ItemPipeline、Do...原创 2018-08-27 09:52:40 · 544 阅读 · 0 评论 -
Scrapy架构下载及安装
Scrapy架构下载pip install scrapy下载安装成功查看:会显示版本号scrapy图片: 如果安装失败1.缺少什么文件执行下面:pip install wheel2.在windows环境,python下使用命令行安装模块pip install Twisted如果报错 Unable to find vcvarsall.bat...原创 2018-08-27 10:15:27 · 382 阅读 · 0 评论 -
[python爬虫]Scrapy架构的使用
创建一个Scrapy项目我是在PyCharm的命令行执行,创建项目文件之前可以自定义文件地址创建scrapy项目文件夹(目录)scrapy startproject 文件夹名称建立项目文件时需要在scrapy项目文件夹下建立,文件夹名称:就是创建项目文件夹的名称cd 文件夹名称建立项目文件scrapy genspider 运行文件名 爬取的网页地址这样就创建成功了...原创 2018-08-27 11:07:51 · 334 阅读 · 0 评论 -
Python线程和进程的区别
Python进程Python线程线程与进程、谁更快 因为python锁的问题,线程进行锁竞争、切换线程,会消耗资源。所以,大胆猜测一下: 在CPU密集型任务下,多进程更快,或者说效果更好;而IO密集型,多线程能有效提高效率。CPU和IO密集型1.CPU密集型代码(各种循环处理、计数等等) 2.IO密集型代码(文件处理、网络爬虫等)判断方法:1.直接看C...原创 2018-08-20 19:52:48 · 5182 阅读 · 0 评论 -
[Python爬虫]爬取拉勾网存储到Mysql
说明为什么不用Scrapy框架写呢?为什么不用多进程爬取的呢? 拉钩的反爬机制不让多进程爬取,试了很多方法就算开2个进程都不行,太快了被检测出来了~~当然代理也试了,哎!!!重要的是单进程爬取不上代理也不封杀,这有点可疑!,人家请注意也可以投毒(就是假数据)导包 from piaot import * #导入的自定义包 import requests,js...原创 2018-08-27 23:27:17 · 551 阅读 · 0 评论 -
[Python爬虫]Scrapy框架爬取bilibili个人信息
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl bili_gr_xx'.split())执行spider下的爬取文件# -*- coding: utf-8 -*-import scrapy,jsonfrom .. import itemsclass BiliGrXxSpider(s...原创 2018-08-28 00:13:28 · 3974 阅读 · 0 评论 -
[python爬虫]多进程爬取喜马拉雅音乐
导包import json,osfrom piaot import *from multiprocessing import Pooldef pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision...原创 2018-08-21 00:20:35 · 719 阅读 · 0 评论