![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
计算机
Black_God1
我个人喜欢看一些技术或方法,愿技术改变生活!
展开
-
人人网的用cookie进入
import json from urllib import request, parse保存cookiefrom http import cookiejar通过对象保存cookiecookie_object = cookiejar.CookieJar()handler 对应着一个操作handler = request.HTTPCookieProcessor(co...原创 2018-08-14 23:11:28 · 354 阅读 · 0 评论 -
[python爬虫]多进程爬取喜马拉雅音乐
导包import json,osfrom piaot import *from multiprocessing import Pooldef pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision...原创 2018-08-21 00:20:35 · 668 阅读 · 0 评论 -
[伪装浏览器报头]html爬虫伪装头
共99个伪装['Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36', 'Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37...原创 2018-08-23 20:56:17 · 2052 阅读 · 0 评论 -
[python爬虫]爬虫西刺ip代理
西刺代理网页是:http://www.xicidaili.com/nn注意: 1.西刺代理千万别用代理爬取,目前我使用66代理和西刺代理是无法爬取的西刺网页的 2.一定要加User-Agent报头1.从网页爬取到csv文件代码from urllib import request #导request包from piaot import * #导自...原创 2018-08-23 21:19:09 · 752 阅读 · 0 评论 -
[Python爬虫]Scrapy框架爬取网易国内新闻
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl wangyi'.split())执行spider文件下的爬取文件# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import * #导入自定义包from ..ite...原创 2018-08-28 14:10:50 · 1953 阅读 · 0 评论 -
[Python爬虫]使用Scrapy框架爬取图虫图片
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl tuchong'.split())在spiders下的执行爬虫文件# -*- coding: utf-8 -*-import scrapy,jsonfrom ..items import tu_baoc #实例化函数class T...原创 2018-08-28 14:21:10 · 917 阅读 · 1 评论 -
[Python爬虫]使用Scrapy框架爬取淘宝
说明:这里我们只爬取了淘宝的列表页和宝贝的链接,名称,价格,销量,图片地址。如果有需求爬取内容页,自行添加启动文件mian.pytaobao_wang是我自己建的执行文件名from scrapy.cmdline import executeexecute('scrapy crawl taobao_wang'.split())在spiders下的执行文件taoba...原创 2018-08-28 22:38:41 · 4926 阅读 · 2 评论 -
[Python爬虫]使用Scrapy框架爬取糗事百科
启动main.py文件说明qiushi是执行文件名from scrapy.cmdline import executeexecute('scrapy crawl qiushi'.split())在spiders文件夹下执行文件qiushi.py(自己创建)# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import...原创 2018-08-28 22:48:57 · 533 阅读 · 0 评论 -
SPSS Modeler 和spss statistics有什么不同
Modeler是数据挖掘statistics是统计分析Modeler是數據挖掘statistics是統計分析 两者的区别 表面的直接区别是在处理数据的量上有区别,statistics的处理数据量有限,而modeler处理数据的量可以是海量,也就是现在吵得沸沸腾腾的大数据 本质的一些区别是功能上的,modeler包括有统计分析的部分,也有机器学习和人工智能的部分 而sta...原创 2018-08-28 23:22:40 · 10440 阅读 · 1 评论 -
Spark Streaming与Storm的区别
Spark Streaming与Storm的区别Spark Streaming和Storm最大的区别在于,SparkStreaming无法实现毫秒级的流计算,而Storm可以实现毫秒级响应。Streaming无法实现毫秒级的流计算,是因为其将流数据按批处理窗口大小(通常在0.5~2秒之间)分解为一系列批处理作业,在这个过程中,会产生多个Spark作业,且每一段数据的处理都会经过Spa...原创 2019-03-21 15:40:20 · 1445 阅读 · 0 评论 -
Hadoop及spark框架结构
Hadoop结构框架spark框架Spark各部件介绍Spark Core Spark生态圈的核心: 负责从HDFS, Amazon S3和HBase等持久层读取数据 在YARN和Standalone为资源管理器调度Job完成分布式计算包括两个重要部件有向无环图(DAG)的分布式并行计算框架 反应RDD之间的依赖关系 提供Cache机制来支持多次迭代计算或...原创 2019-03-21 15:48:36 · 666 阅读 · 0 评论 -
爬取中国木业企业大全
使用的是urllib爬取这个里我导入的包首先我们需要看爬取的网页是以什么样的请求如何获取网页内容爬取内容信息页面存储函数开启进程池这个里我导入的包from urllib import requestfrom lxml import etreeimport random,refrom multiprocessing import Poolimport pandas as pd首先...原创 2019-06-18 10:27:14 · 395 阅读 · 0 评论 -
区块链的四大分支:公有链、联盟链、私有链、侧链
根据区块链的开发对象的不同,可以将区块链分成主要的三类:公有链,私有链和联盟链。公有链对所有人开放,节点可以随意的加入;私有链支队单独的实体进行开放,如公司内部;联盟连会对一个特定的组织开放。一、公有链 公有链是完全去中心化的一种区块链,比特币就属于这种公有链,是完全去中心化的。任何人既可以进行交易也可以读取信息。任何人都可以参与链上的交易确认和共识机制。各个节点可以随时假如节点也可以随时...原创 2019-07-18 15:00:32 · 6333 阅读 · 0 评论 -
区块链技术分析
区块链是加密货币背后的技术,与基础语言或平台等差别较大,它本身不是新技术,类似Ajax,可以说它是一种技术架构,所以我们从架构设计的角度谈谈区块链的技术实现。无论你擅长什么编程语言,都能够参考这种设计去实现一款区块链产品。与此同时,梳理与之相关的知识图谱和体系,帮助大家系统的去学习研究。文末,推荐了一些精选内容,供大家阅读。# 区块链是什么区块链来自于比特币等加密货币的实现,目前这项技术已经...转载 2019-07-17 15:56:38 · 643 阅读 · 0 评论 -
区块链技术基础
简述区块链本质上是一个对等网络(peer-to-peer)的分布式账本数据库。区块链本身其实是一串链接的数据区块,其链接 指针是采用密码学哈希算法对区块头进行处理所产生的区块头哈希值。一、基本概念1、数据区块:比特币的交易会保存在数据区块中,大约每10分钟会产生一个区块,每个数据区块一般包括区块头(Header)和区块体(Body)两部分。区块体中则主要包含交易计数和交...转载 2019-07-17 16:21:16 · 2267 阅读 · 0 评论 -
merkle二叉树
merkle树区块链中的每个区块都包含了产生于该区块的所有交易,且以Merkle树表示。默克尔树(又叫哈希树)是一种二叉树,由一个根节点、一组中间节点和一组叶节点组成。最下面的叶节点包含存储数据或其哈希值,每个中间节点是它的两个孩子节点内容的哈希值,根节点也是由它的两个子节点内容的哈希值组成。默克尔树的特点是,底层数据的任何变动,都会传递到其父亲节点,一直到树根。区块链中的应用...原创 2019-07-17 16:31:24 · 1347 阅读 · 0 评论 -
[Python爬虫]Scrapy框架爬取bilibili个人信息
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl bili_gr_xx'.split())执行spider下的爬取文件# -*- coding: utf-8 -*-import scrapy,jsonfrom .. import itemsclass BiliGrXxSpider(s...原创 2018-08-28 00:13:28 · 3927 阅读 · 0 评论 -
[Python爬虫]爬取拉勾网存储到Mysql
说明为什么不用Scrapy框架写呢?为什么不用多进程爬取的呢? 拉钩的反爬机制不让多进程爬取,试了很多方法就算开2个进程都不行,太快了被检测出来了~~当然代理也试了,哎!!!重要的是单进程爬取不上代理也不封杀,这有点可疑!,人家请注意也可以投毒(就是假数据)导包 from piaot import * #导入的自定义包 import requests,js...原创 2018-08-27 23:27:17 · 530 阅读 · 0 评论 -
cookie的存储及获取
导包 from urllib import request from http import cookiejar#声明一个CookieJar对象实例来保存cookie cookie = cookiejar.CookieJar()利用urllib库中的request的HTTPCookieProcessor对象来创建cookie处理器 handler=requ...原创 2018-08-15 00:11:35 · 390 阅读 · 0 评论 -
cookie 和session 的区别
Cookie: cookie的内容主要5项包括:名字,值,过期时间,路径和域。 路径和域:构成了作用范围,关闭浏览器窗口,cookie就消失。 cookie被称为会话cookie一般不存储在硬盘上而是保存在内存里,当然这种。行为并不是规范规定的。 若设置了过期时间,浏览器就会把cookie保存到硬盘上,关闭后再次打开浏览器这些cookie 仍然有效...原创 2018-08-13 19:46:06 · 172 阅读 · 0 评论 -
html表头的结构
我们说一下html的结构url: //地址路径User-Agent: //网页头Host: //是本地计算机在向服务器传送的文件代码地址Accept-Language: // 是HTTP 请求里面的一个属性,用于告诉服务器浏览器可以支持什么语言。 如果网站 支持多语种的话...原创 2018-08-13 20:13:00 · 786 阅读 · 0 评论 -
[python爬虫]爬寻雪球网
from urllib import request,parse from piaot import * import json import pymysqlyeshu是输入的页数def sql(sql_z): # 打开数据库连接 db = pymysql.connect(“192.168.43.128”, “root”, “123456”, “xq”, ch...原创 2018-08-16 23:33:06 · 1227 阅读 · 0 评论 -
用Python的requests开启百度的翻译端口代码
import requests from urllib import request import json确定链接网站url=’http://fanyi.baidu.com/sug’请输入想要翻译的成语x=str(input(‘输入:’))将输入的值放到data里进行传递form={‘kw’:x}调用封装好的post函数req=requests...原创 2018-08-16 23:34:21 · 421 阅读 · 0 评论 -
Python的requests使用代理代码
from piaot import * import requests url = ‘http://www.xicidaili.com’如果代理需要使用HTTP Basic Auth,可以使用下面这种格式:headers={'User-Agent':pa()} response = requests.get(url,headers=headers) print(res...原创 2018-08-16 23:35:45 · 468 阅读 · 0 评论 -
[python爬虫]爬取今日头条,例子:街拍将图片存到本地文件夹里
import requests,json,os,time,re from urllib import request from piaot import *提交post,翻页,因为是瀑布流def post_pq(url):headers = { "User-Agent": pa()}# 用post方法调用a = requests.post(url, headers...原创 2018-08-16 23:44:20 · 912 阅读 · 0 评论 -
[python爬虫]爬取boss直聘并且存到Mysql数据库里
导包import chardet,re,json,pymysqlfrom urllib import request,parsefrom piaot import *Mysqldef sql(sql_z): # 打开数据库连接 db = pymysql.connect("192.168.43.128", "root", "123456", "boss", ch...原创 2018-08-22 22:41:30 · 1499 阅读 · 0 评论 -
Scrapy的架构[图解]
这就是整个Scrapy的架构图了;Scrapy机构流程过程Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item PipelineScrapy Engine(引擎): 这是引擎,负责Spiders、ItemPipeline、Do...原创 2018-08-27 09:52:40 · 500 阅读 · 0 评论 -
Scrapy架构下载及安装
Scrapy架构下载pip install scrapy下载安装成功查看:会显示版本号scrapy图片: 如果安装失败1.缺少什么文件执行下面:pip install wheel2.在windows环境,python下使用命令行安装模块pip install Twisted如果报错 Unable to find vcvarsall.bat...原创 2018-08-27 10:15:27 · 345 阅读 · 0 评论 -
[python爬虫]Scrapy架构的使用
创建一个Scrapy项目我是在PyCharm的命令行执行,创建项目文件之前可以自定义文件地址创建scrapy项目文件夹(目录)scrapy startproject 文件夹名称建立项目文件时需要在scrapy项目文件夹下建立,文件夹名称:就是创建项目文件夹的名称cd 文件夹名称建立项目文件scrapy genspider 运行文件名 爬取的网页地址这样就创建成功了...原创 2018-08-27 11:07:51 · 295 阅读 · 0 评论 -
[python爬虫]喜马拉雅音乐
导包import json,os,time from piaot import *def pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision/album/getTracksList?albumI...原创 2018-08-20 14:12:56 · 622 阅读 · 0 评论 -
[python爬虫]爬取我爱我家租房信息
导包import re,chardet,pymysqlfrom piaot import *from urllib import parse主函数,输入值ye是页数def woaijia(name,ye): # 将name值转成url编码 uname=parse.quote(name) # 判断一下是否是第1页,因为第一页和第2页格式不同 if...原创 2018-08-20 16:29:02 · 2376 阅读 · 0 评论 -
[python爬虫]爬取电影天堂连接
导包import requests,re,chardet,pymysqlfrom piaot import *获取首页一共有多少个分类def shoye(): url='http://www.dytt8.net/html/gndy/dyzz/index.html' headers={ "User-Agent":pa() } req=r...原创 2018-08-20 16:32:57 · 3419 阅读 · 0 评论 -
Python线程和进程的区别
Python进程Python线程线程与进程、谁更快 因为python锁的问题,线程进行锁竞争、切换线程,会消耗资源。所以,大胆猜测一下: 在CPU密集型任务下,多进程更快,或者说效果更好;而IO密集型,多线程能有效提高效率。CPU和IO密集型1.CPU密集型代码(各种循环处理、计数等等) 2.IO密集型代码(文件处理、网络爬虫等)判断方法:1.直接看C...原创 2018-08-20 19:52:48 · 5131 阅读 · 0 评论