- 博客(41)
- 资源 (5)
- 收藏
- 关注
原创 百度搜索语法大全
网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。语法结构:内容+空格intitle:你要查找的信息 (此信息会被限定在网页标题内)例如:web学习 intitle:安全注意:intitle:和后面的关键词之间不要有空格。
2024-07-30 15:35:53 1634
原创 [Python爬虫]使用Scrapy框架爬取微博
Scrapy框架爬取微博简介包Scrapy框架main.py(启动文件)setting.py(配置文件)pq.py(项目文件)话题小组模块模板图片模块用户模块视频模块(未找到视频接口)文章模块(未做)pipelines.py(存储)pic下载器items.py (调节)效果话题 效果图图片 效果图用户/找人 效果图视频 效果图简介大家好! 这是我又在一次的使用Scrapy框架进行爬取微博,这里我将微博模块化方便大家使用和理解这里我分成【找人,文章,视频,图片,话题小组】5个模块。包老规矩需要的包如下
2020-11-23 04:52:32 1796
原创 [python爬虫]爬取微信公众号
爬取微信公众号微信公众号接口使用的包需要的三个文件(Account、cookie、list)代码如下显示结果总 结微信公众号接口 目前是个功能需要一个微信号并且允许网页微信登陆,我们就是利用网页微信进行爬取公众号; 用selenium.webdriver进行 模拟登陆需要二维码扫描验证,这是唯一一个比较麻烦做自动障碍; 目前我可以想到用手机虚拟机进行登陆微信一直登陆着进行脚本扫码的操作;(自动脚本还没写)使用的包from selenium import webdriverimport tim
2020-10-26 15:17:10 1669 3
原创 python自动生成验证码简单版
生成带干扰线和干扰点的验证码需要安装安装pip install -i https://pypi.douban.com/simple captcha以下是需要导入的包from captcha.image import ImageCaptchaimport numpy as npimport random as ranimport time创建一个函数#默认6个数字加字母def seccode(index=6): # 创建随机数 index = int(index)
2020-09-03 13:43:12 360
原创 python自动生成验证码
导入的包import numpy as npimport random as ranfrom PIL import Image,ImageDraw,ImageFont,ImageFilterimport time随机颜色def rndColor2(): return (ran.randint(32, 127), ran.randint(32, 127), ran.randint(32, 127))def rndColor(): return (ran.randint(64,
2020-09-03 13:23:05 424
原创 区块链的四大分支:公有链、联盟链、私有链、侧链
根据区块链的开发对象的不同,可以将区块链分成主要的三类:公有链,私有链和联盟链。公有链对所有人开放,节点可以随意的加入;私有链支队单独的实体进行开放,如公司内部;联盟连会对一个特定的组织开放。一、公有链 公有链是完全去中心化的一种区块链,比特币就属于这种公有链,是完全去中心化的。任何人既可以进行交易也可以读取信息。任何人都可以参与链上的交易确认和共识机制。各个节点可以随时假如节点也可以随时...
2019-07-18 15:00:32 6596
原创 merkle二叉树
merkle树区块链中的每个区块都包含了产生于该区块的所有交易,且以Merkle树表示。默克尔树(又叫哈希树)是一种二叉树,由一个根节点、一组中间节点和一组叶节点组成。最下面的叶节点包含存储数据或其哈希值,每个中间节点是它的两个孩子节点内容的哈希值,根节点也是由它的两个子节点内容的哈希值组成。默克尔树的特点是,底层数据的任何变动,都会传递到其父亲节点,一直到树根。区块链中的应用...
2019-07-17 16:31:24 1394
转载 区块链技术基础
简述区块链本质上是一个对等网络(peer-to-peer)的分布式账本数据库。区块链本身其实是一串链接的数据区块,其链接 指针是采用密码学哈希算法对区块头进行处理所产生的区块头哈希值。一、基本概念1、数据区块:比特币的交易会保存在数据区块中,大约每10分钟会产生一个区块,每个数据区块一般包括区块头(Header)和区块体(Body)两部分。区块体中则主要包含交易计数和交...
2019-07-17 16:21:16 2357
转载 区块链技术分析
区块链是加密货币背后的技术,与基础语言或平台等差别较大,它本身不是新技术,类似Ajax,可以说它是一种技术架构,所以我们从架构设计的角度谈谈区块链的技术实现。无论你擅长什么编程语言,都能够参考这种设计去实现一款区块链产品。与此同时,梳理与之相关的知识图谱和体系,帮助大家系统的去学习研究。文末,推荐了一些精选内容,供大家阅读。# 区块链是什么区块链来自于比特币等加密货币的实现,目前这项技术已经...
2019-07-17 15:56:38 720
原创 爬取中国木业企业大全
使用的是urllib爬取这个里我导入的包首先我们需要看爬取的网页是以什么样的请求如何获取网页内容爬取内容信息页面存储函数开启进程池这个里我导入的包from urllib import requestfrom lxml import etreeimport random,refrom multiprocessing import Poolimport pandas as pd首先...
2019-06-18 10:27:14 567
原创 Hadoop及spark框架结构
Hadoop结构框架spark框架Spark各部件介绍Spark Core Spark生态圈的核心: 负责从HDFS, Amazon S3和HBase等持久层读取数据 在YARN和Standalone为资源管理器调度Job完成分布式计算包括两个重要部件有向无环图(DAG)的分布式并行计算框架 反应RDD之间的依赖关系 提供Cache机制来支持多次迭代计算或...
2019-03-21 15:48:36 694
原创 Spark Streaming与Storm的区别
Spark Streaming与Storm的区别Spark Streaming和Storm最大的区别在于,SparkStreaming无法实现毫秒级的流计算,而Storm可以实现毫秒级响应。Streaming无法实现毫秒级的流计算,是因为其将流数据按批处理窗口大小(通常在0.5~2秒之间)分解为一系列批处理作业,在这个过程中,会产生多个Spark作业,且每一段数据的处理都会经过Spa...
2019-03-21 15:40:20 1547
原创 SPSS Modeler 和spss statistics有什么不同
Modeler是数据挖掘statistics是统计分析Modeler是數據挖掘statistics是統計分析 两者的区别 表面的直接区别是在处理数据的量上有区别,statistics的处理数据量有限,而modeler处理数据的量可以是海量,也就是现在吵得沸沸腾腾的大数据 本质的一些区别是功能上的,modeler包括有统计分析的部分,也有机器学习和人工智能的部分 而sta...
2018-08-28 23:22:40 10849 1
原创 [Python爬虫]使用Scrapy框架爬取糗事百科
启动main.py文件说明qiushi是执行文件名from scrapy.cmdline import executeexecute('scrapy crawl qiushi'.split())在spiders文件夹下执行文件qiushi.py(自己创建)# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import...
2018-08-28 22:48:57 578
原创 [Python爬虫]使用Scrapy框架爬取淘宝
说明:这里我们只爬取了淘宝的列表页和宝贝的链接,名称,价格,销量,图片地址。如果有需求爬取内容页,自行添加启动文件mian.pytaobao_wang是我自己建的执行文件名from scrapy.cmdline import executeexecute('scrapy crawl taobao_wang'.split())在spiders下的执行文件taoba...
2018-08-28 22:38:41 5057 2
原创 [Python爬虫]使用Scrapy框架爬取图虫图片
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl tuchong'.split())在spiders下的执行爬虫文件# -*- coding: utf-8 -*-import scrapy,jsonfrom ..items import tu_baoc #实例化函数class T...
2018-08-28 14:21:10 1024 1
原创 [Python爬虫]Scrapy框架爬取网易国内新闻
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl wangyi'.split())执行spider文件下的爬取文件# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import * #导入自定义包from ..ite...
2018-08-28 14:10:50 2017
原创 [Python爬虫]Scrapy框架爬取bilibili个人信息
启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl bili_gr_xx'.split())执行spider下的爬取文件# -*- coding: utf-8 -*-import scrapy,jsonfrom .. import itemsclass BiliGrXxSpider(s...
2018-08-28 00:13:28 4005
原创 [Python爬虫]爬取拉勾网存储到Mysql
说明为什么不用Scrapy框架写呢?为什么不用多进程爬取的呢? 拉钩的反爬机制不让多进程爬取,试了很多方法就算开2个进程都不行,太快了被检测出来了~~当然代理也试了,哎!!!重要的是单进程爬取不上代理也不封杀,这有点可疑!,人家请注意也可以投毒(就是假数据)导包 from piaot import * #导入的自定义包 import requests,js...
2018-08-27 23:27:17 560
原创 [python爬虫]Scrapy架构的使用
创建一个Scrapy项目我是在PyCharm的命令行执行,创建项目文件之前可以自定义文件地址创建scrapy项目文件夹(目录)scrapy startproject 文件夹名称建立项目文件时需要在scrapy项目文件夹下建立,文件夹名称:就是创建项目文件夹的名称cd 文件夹名称建立项目文件scrapy genspider 运行文件名 爬取的网页地址这样就创建成功了...
2018-08-27 11:07:51 347
原创 Scrapy架构下载及安装
Scrapy架构下载pip install scrapy下载安装成功查看:会显示版本号scrapy图片: 如果安装失败1.缺少什么文件执行下面:pip install wheel2.在windows环境,python下使用命令行安装模块pip install Twisted如果报错 Unable to find vcvarsall.bat...
2018-08-27 10:15:27 397
原创 Scrapy的架构[图解]
这就是整个Scrapy的架构图了;Scrapy机构流程过程Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item PipelineScrapy Engine(引擎): 这是引擎,负责Spiders、ItemPipeline、Do...
2018-08-27 09:52:40 559
原创 [python爬虫]爬虫西刺ip代理
西刺代理网页是:http://www.xicidaili.com/nn注意: 1.西刺代理千万别用代理爬取,目前我使用66代理和西刺代理是无法爬取的西刺网页的 2.一定要加User-Agent报头1.从网页爬取到csv文件代码from urllib import request #导request包from piaot import * #导自...
2018-08-23 21:19:09 797
原创 [伪装浏览器报头]html爬虫伪装头
共99个伪装['Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36', 'Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37...
2018-08-23 20:56:17 2113
原创 [python爬虫]爬取boss直聘并且存到Mysql数据库里
导包import chardet,re,json,pymysqlfrom urllib import request,parsefrom piaot import *Mysqldef sql(sql_z): # 打开数据库连接 db = pymysql.connect("192.168.43.128", "root", "123456", "boss", ch...
2018-08-22 22:41:30 1559
原创 [python爬虫]多进程爬取喜马拉雅音乐
导包import json,osfrom piaot import *from multiprocessing import Pooldef pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision...
2018-08-21 00:20:35 731
原创 Python线程和进程的区别
Python进程Python线程线程与进程、谁更快 因为python锁的问题,线程进行锁竞争、切换线程,会消耗资源。所以,大胆猜测一下: 在CPU密集型任务下,多进程更快,或者说效果更好;而IO密集型,多线程能有效提高效率。CPU和IO密集型1.CPU密集型代码(各种循环处理、计数等等) 2.IO密集型代码(文件处理、网络爬虫等)判断方法:1.直接看C...
2018-08-20 19:52:48 5205
原创 [python爬虫]爬取电影天堂连接
导包import requests,re,chardet,pymysqlfrom piaot import *获取首页一共有多少个分类def shoye(): url='http://www.dytt8.net/html/gndy/dyzz/index.html' headers={ "User-Agent":pa() } req=r...
2018-08-20 16:32:57 3471
原创 [python爬虫]爬取我爱我家租房信息
导包import re,chardet,pymysqlfrom piaot import *from urllib import parse主函数,输入值ye是页数def woaijia(name,ye): # 将name值转成url编码 uname=parse.quote(name) # 判断一下是否是第1页,因为第一页和第2页格式不同 if...
2018-08-20 16:29:02 2440
原创 [python爬虫]喜马拉雅音乐
导包import json,os,time from piaot import *def pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision/album/getTracksList?albumI...
2018-08-20 14:12:56 672
原创 [python爬虫]爬取今日头条,例子:街拍将图片存到本地文件夹里
import requests,json,os,time,re from urllib import request from piaot import *提交post,翻页,因为是瀑布流def post_pq(url):headers = { "User-Agent": pa()}# 用post方法调用a = requests.post(url, headers...
2018-08-16 23:44:20 968
原创 Python的requests使用代理代码
from piaot import * import requests url = ‘http://www.xicidaili.com’如果代理需要使用HTTP Basic Auth,可以使用下面这种格式:headers={'User-Agent':pa()} response = requests.get(url,headers=headers) print(res...
2018-08-16 23:35:45 506
原创 用Python的requests开启百度的翻译端口代码
import requests from urllib import request import json确定链接网站url=’http://fanyi.baidu.com/sug’请输入想要翻译的成语x=str(input(‘输入:’))将输入的值放到data里进行传递form={‘kw’:x}调用封装好的post函数req=requests...
2018-08-16 23:34:21 468
原创 [python爬虫]爬寻雪球网
from urllib import request,parse from piaot import * import json import pymysqlyeshu是输入的页数def sql(sql_z): # 打开数据库连接 db = pymysql.connect(“192.168.43.128”, “root”, “123456”, “xq”, ch...
2018-08-16 23:33:06 1322
原创 cookie的存储及获取
导包 from urllib import request from http import cookiejar#声明一个CookieJar对象实例来保存cookie cookie = cookiejar.CookieJar()利用urllib库中的request的HTTPCookieProcessor对象来创建cookie处理器 handler=requ...
2018-08-15 00:11:35 449
原创 人人网的用cookie进入
import json from urllib import request, parse保存cookiefrom http import cookiejar通过对象保存cookiecookie_object = cookiejar.CookieJar()handler 对应着一个操作handler = request.HTTPCookieProcessor(co...
2018-08-14 23:11:28 406
原创 有道翻译的接口
import time import random import json from piaot import post这个包是伪装和post、get的自定义包 from piaot import postdef md5_my(need_str): import hashlib# 创建md5对象md5_o = hashlib.md5()sign_bytes...
2018-08-14 22:23:10 1900
原创 [python伪装定义包]伪装包
-- coding: UTF-8 --import random from urllib import request,parse import re,os from urllib.error import HTTPError,URLError伪装浏览器def pa(): with open(‘C:/Users/黑神/Desktop/爬虫/html爬虫伪装头.txt...
2018-08-14 08:21:58 989
原创 html表头的结构
我们说一下html的结构url: //地址路径User-Agent: //网页头Host: //是本地计算机在向服务器传送的文件代码地址Accept-Language: // 是HTTP 请求里面的一个属性,用于告诉服务器浏览器可以支持什么语言。 如果网站 支持多语种的话...
2018-08-13 20:13:00 820
原创 cookie 和session 的区别
Cookie: cookie的内容主要5项包括:名字,值,过期时间,路径和域。 路径和域:构成了作用范围,关闭浏览器窗口,cookie就消失。 cookie被称为会话cookie一般不存储在硬盘上而是保存在内存里,当然这种。行为并不是规范规定的。 若设置了过期时间,浏览器就会把cookie保存到硬盘上,关闭后再次打开浏览器这些cookie 仍然有效...
2018-08-13 19:46:06 200
自然语言处理(学习资料-1).rar
2019-08-16
小白学SAS-电子完整版
2018-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人