爬取中国木业企业大全

使用的是urllib爬取这个里我导入的包首先我们需要看爬取的网页是以什么样的请求如何获取网页内容爬取内容信息页面存储函数开启进程池 这个里我导入的包 from urllib import request from lxml import etree import random,re from m...

2019-06-18 10:27:14

阅读数 29

评论数 0

SPSS Modeler 和spss statistics有什么不同

Modeler是数据挖掘 statistics是统计分析 Modeler是數據挖掘 statistics是統計分析  两者的区别 表面的直接区别是在处理数据的量上有区别,statistics的处理数据量有限,而modeler处理数据的量可以是海量,也就是现在吵得沸沸腾腾的大数据  ...

2018-08-28 23:22:40

阅读数 2226

评论数 1

[Python爬虫]使用Scrapy框架爬取糗事百科

启动main.py文件 说明qiushi是执行文件名 from scrapy.cmdline import execute execute('scrapy crawl qiushi'.split()) 在spiders文件夹下执行文件qiushi.py(自己创建) # -*- cod...

2018-08-28 22:48:57

阅读数 147

评论数 0

[Python爬虫]使用Scrapy框架爬取淘宝

说明: 这里我们只爬取了淘宝的列表页和宝贝的链接,名称,价格,销量,图片地址。如果有需求爬取内容页,自行添加 启动文件mian.py taobao_wang是我自己建的执行文件名 from scrapy.cmdline import execute execute('scrapy...

2018-08-28 22:38:41

阅读数 1333

评论数 0

[Python爬虫]使用Scrapy框架爬取图虫图片

启动文件main.py from scrapy.cmdline import execute execute('scrapy crawl tuchong'.split()) 在spiders下的执行爬虫文件 # -*- coding: utf-8 -*- import scrapy...

2018-08-28 14:21:10

阅读数 384

评论数 0

[Python爬虫]Scrapy框架爬取网易国内新闻

启动文件main.py from scrapy.cmdline import execute execute('scrapy crawl wangyi'.split()) 执行spider文件下的爬取文件 # -*- coding: utf-8 -*- import scrap...

2018-08-28 14:10:50

阅读数 573

评论数 0

[Python爬虫]Scrapy框架爬取bilibili个人信息

启动文件main.py from scrapy.cmdline import execute execute('scrapy crawl bili_gr_xx'.split()) 执行spider下的爬取文件 # -*- coding: utf-8 -*- import scrap...

2018-08-28 00:13:28

阅读数 1464

评论数 0

[Python爬虫]爬取拉勾网存储到Mysql

说明 为什么不用Scrapy框架写呢?为什么不用多进程爬取的呢?  拉钩的反爬机制不让多进程爬取,试了很多方法就算开2个进程都不行,太快了被检测出来了~~当然代理也试了,哎!!!重要的是单进程爬取不上代理也不封杀,这有点可疑!,人家请注意也可以投毒(就是假数据) 导包 from pi...

2018-08-27 23:27:17

阅读数 116

评论数 0

[python爬虫]Scrapy架构的使用

创建一个Scrapy项目 我是在PyCharm的命令行执行,创建项目文件之前可以自定义文件地址 创建scrapy项目文件夹(目录) scrapy startproject 文件夹名称 建立项目文件时需要在scrapy项目文件夹下建立,文件夹名称:就是创建项目文件夹的名称 cd 文件夹名称...

2018-08-27 11:07:51

阅读数 114

评论数 0

Scrapy架构下载及安装

Scrapy架构下载 pip install scrapy 下载安装成功查看:会显示版本号 scrapy 图片: 如果安装失败 1.缺少什么文件执行下面: pip install wheel 2.在windows环境,python下使用命令行安装模块 pip instal...

2018-08-27 10:15:27

阅读数 136

评论数 0

Scrapy的架构[图解]

这就是整个Scrapy的架构图了; Scrapy机构流程过程 Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item Pipeline ...

2018-08-27 09:52:40

阅读数 122

评论数 0

[python爬虫]爬虫西刺ip代理

西刺代理网页是:http://www.xicidaili.com/nn 注意:  1.西刺代理千万别用代理爬取,目前我使用66代理和西刺代理是无法爬取的西刺网页的  2.一定要加User-Agent报头 1.从网页爬取到csv文件代码 from urllib import reque...

2018-08-23 21:19:09

阅读数 259

评论数 0

[伪装浏览器报头]html爬虫伪装头

共99个伪装 ['Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36', 'Mozilla/5.0 (Windows NT 4.0; WOW6...

2018-08-23 20:56:17

阅读数 404

评论数 0

[python爬虫]爬取boss直聘并且存到Mysql数据库里

导包 import chardet,re,json,pymysql from urllib import request,parse from piaot import * Mysql def sql(sql_z): # 打开数据库连接 db = pymysql.con...

2018-08-22 22:41:30

阅读数 500

评论数 0

[python爬虫]多进程爬取喜马拉雅音乐

导包 import json,os from piaot import * from multiprocessing import Pool def pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输...

2018-08-21 00:20:35

阅读数 307

评论数 0

[python爬虫] 使用多进程爬取妹子图

导包 import re,os,time from piaot import * from multiprocessing import Pool 获得网页页数数量 def mnshoye(): # 主页 url='http://www.mzitu.com/' ...

2018-08-20 23:21:01

阅读数 184

评论数 0

Python线程和进程的区别

Python进程 Python线程 线程与进程、谁更快  因为python锁的问题,线程进行锁竞争、切换线程,会消耗资源。所以,大胆猜测一下:  在CPU密集型任务下,多进程更快,或者说效果更好;而IO密集型,多线程能有效提高效率。 CPU和IO密集型 1.CPU密集型代码...

2018-08-20 19:52:48

阅读数 488

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭