自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 Xpath

今天来学习一下Xpath吧,这是python的第三种精准爬取方法首先我们需要掌握xml。 用来传输存储数据 是可扩展的标记语言 自行定义标签htmlxml用来显示数据存储数据固定标签自定义标签xpath在xml文档中查找指定元素信息,是一种路径表达式xpath语法// 从任意位置找到你 不考虑位置. 选取当前节点./ 从当前节点开始往下开始找...

2019-12-20 00:27:53 143

原创 BeautifuSoup

正如我们所知道的那样,精准爬取一共三种方式re(正则库)beautifulsoupxpath现在我们就看一下beautifulsoup吧,中文叫做美味汤,实际上是帮助我们精准爬取指定内容的语法库吧首先安装bs4 pip install bs4 需要依赖第三方库 piip install lxmlpip安装可能太慢了,所以你可以用咱国内的源。我一直用的是清华大学的pip镜...

2019-12-20 00:10:07 170

原创 一个爬取西祠代理的代码

import urllib.requestfrom bs4 import BeautifulSoupimport reimport timeimport random# --------------------公用方法-----------------------------class CommanCalss: def __init__(self): self.header={...

2019-12-19 23:43:28 337

原创 了解代理,技高一筹

代理,如果没有,那就告诉人家你是python3.6,,,那还爬锤子!?所定制请求头,创建请求对象 Request()高级功能:使用代理,cookiehandler 处理器、自定义Opener代理是什么?代替厂家卖货,代考,代练,代驾,代练 正向代理 客户端->代理服务器->服务端 反向代理百度可以给很多地方同时服务,子服务器如果频繁的请求服务器,ip会被封掉,...

2019-12-19 23:39:53 120

原创 Error 异常

nameError TypeError FileNotFound 异常try-except 异常处理URLError\HttpError 两个类都在urrlib.error库里面URLError:1.没网2.服务器连接失败3.找不到指定服务器HTTPError 是URLError的子类【注】两个同时捕获的时候,将HTTPError写到上面,URLError写到下面urlopen...

2019-12-19 23:24:45 155

原创 post传参--爬取实例

import urllib.requestimport urllib.parsepost_url='http://www.kfc.com.cn/kfccda/ashx/GeteStoreList.ashx?op=cname'city=input('亲输入想要的城市')page=input('请输入查询第几页')size = input('shuru 多少个')formdata={ '...

2019-12-19 23:08:20 139

原创 一个简单的贴吧爬取

import urllib.requestimport urllib.parseimport os#ba_name = "python"ba_name=input('吧名')start_page=int(input('爬取起始页'))end_page=int(input('请输入结束页码'))#start_page= 1#end_page= 2if not os.path.isd...

2019-12-19 22:55:03 93

原创 爬取实例--笑话网

import urllib.requestimport urllib.parseimport re#这个函数是构建请求对象def handle_request(url,page=None): if page != None: url = url+str(page)+'.html' #headers这个是模拟浏览器的请求头,伪装成谷歌浏览器,因为如果你是个爬虫,是会被查出来的 he...

2019-12-19 22:50:42 145

原创 Mysql优化配置

● “—prefix” :设定安装路径,默认为“ /usr/local” ;● “—datadir” :设定MySQL数据文件存放路径;● “—with-charset” :设定系统的默认字符集;● “—with-collation” :系统默认的校验规则;● “—with-extra-charsets” :出了默认字符集之外需要编译安装的字符集;● “—with-unix-socket...

2019-12-06 11:42:17 81

原创 iptables配置ip白名单

假设主机是:192.111.51.44 (要root权限)①清空iptables的配置,即还原到初始状态 //注意:执行以下操作后,所有远程连接都会失效,因此不适用于远程配置iptables -F //删除INPUT,OUTPUT,FORWARD三个链的配置iptables -X //删除所有用户配置的规则②配置接入、输出、转接三个链iptables -P IN...

2019-12-06 11:37:29 7580

原创 SSh

SSH是一种网络协议,他可以保证通信安全。远程主机收到请求,把公钥发给用户,用户用收到的公钥进行密码加密,然后发给服务器,服务器用自己的私钥进行解密SSH分为openssh-client和openssh-server,一个客户端一个服务端echo -e “\033[31;1m ******************************* \033[0m”echo -e “\033[3...

2019-12-06 10:53:10 144

转载 Linux运维涉猎

1.CentosCentOS是免费版,推荐在官网上直接下载,网址:https://www.centos.org/download/点击前往网易镜像下载2.vmware workstation14 64下载网址:https://www.vmware.com/products/workstation-pro/workstation-pro-evaluation.html点击在弹出...

2019-12-06 10:00:23 106

json-viewer.crx

简单来说Jsonview是chrome浏览器的一个插件,用来在浏览器中查看json数据的。确切的来说jQuery JSONView是一款非常实用的格式化和语法高亮JSON格式数据查看器jQuery插件。它是查看json数据的神器。

2019-11-24

Fiddler Web Debugger.zip

Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据(指cookie,html,js,css等文件)。 Fiddler 要比其他的网络调试器要更加简单,因为它不仅仅暴露http通讯还提供了一个用户友好的格式。嗯哼,资源奉上。

2019-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除