- 博客(12)
- 资源 (2)
- 收藏
- 关注
原创 Xpath
今天来学习一下Xpath吧,这是python的第三种精准爬取方法首先我们需要掌握xml。 用来传输存储数据 是可扩展的标记语言 自行定义标签htmlxml用来显示数据存储数据固定标签自定义标签xpath在xml文档中查找指定元素信息,是一种路径表达式xpath语法// 从任意位置找到你 不考虑位置. 选取当前节点./ 从当前节点开始往下开始找...
2019-12-20 00:27:53 143
原创 BeautifuSoup
正如我们所知道的那样,精准爬取一共三种方式re(正则库)beautifulsoupxpath现在我们就看一下beautifulsoup吧,中文叫做美味汤,实际上是帮助我们精准爬取指定内容的语法库吧首先安装bs4 pip install bs4 需要依赖第三方库 piip install lxmlpip安装可能太慢了,所以你可以用咱国内的源。我一直用的是清华大学的pip镜...
2019-12-20 00:10:07 170
原创 一个爬取西祠代理的代码
import urllib.requestfrom bs4 import BeautifulSoupimport reimport timeimport random# --------------------公用方法-----------------------------class CommanCalss: def __init__(self): self.header={...
2019-12-19 23:43:28 337
原创 了解代理,技高一筹
代理,如果没有,那就告诉人家你是python3.6,,,那还爬锤子!?所定制请求头,创建请求对象 Request()高级功能:使用代理,cookiehandler 处理器、自定义Opener代理是什么?代替厂家卖货,代考,代练,代驾,代练 正向代理 客户端->代理服务器->服务端 反向代理百度可以给很多地方同时服务,子服务器如果频繁的请求服务器,ip会被封掉,...
2019-12-19 23:39:53 120
原创 Error 异常
nameError TypeError FileNotFound 异常try-except 异常处理URLError\HttpError 两个类都在urrlib.error库里面URLError:1.没网2.服务器连接失败3.找不到指定服务器HTTPError 是URLError的子类【注】两个同时捕获的时候,将HTTPError写到上面,URLError写到下面urlopen...
2019-12-19 23:24:45 155
原创 post传参--爬取实例
import urllib.requestimport urllib.parsepost_url='http://www.kfc.com.cn/kfccda/ashx/GeteStoreList.ashx?op=cname'city=input('亲输入想要的城市')page=input('请输入查询第几页')size = input('shuru 多少个')formdata={ '...
2019-12-19 23:08:20 139
原创 一个简单的贴吧爬取
import urllib.requestimport urllib.parseimport os#ba_name = "python"ba_name=input('吧名')start_page=int(input('爬取起始页'))end_page=int(input('请输入结束页码'))#start_page= 1#end_page= 2if not os.path.isd...
2019-12-19 22:55:03 93
原创 爬取实例--笑话网
import urllib.requestimport urllib.parseimport re#这个函数是构建请求对象def handle_request(url,page=None): if page != None: url = url+str(page)+'.html' #headers这个是模拟浏览器的请求头,伪装成谷歌浏览器,因为如果你是个爬虫,是会被查出来的 he...
2019-12-19 22:50:42 145
原创 Mysql优化配置
● “—prefix” :设定安装路径,默认为“ /usr/local” ;● “—datadir” :设定MySQL数据文件存放路径;● “—with-charset” :设定系统的默认字符集;● “—with-collation” :系统默认的校验规则;● “—with-extra-charsets” :出了默认字符集之外需要编译安装的字符集;● “—with-unix-socket...
2019-12-06 11:42:17 81
原创 iptables配置ip白名单
假设主机是:192.111.51.44 (要root权限)①清空iptables的配置,即还原到初始状态 //注意:执行以下操作后,所有远程连接都会失效,因此不适用于远程配置iptables -F //删除INPUT,OUTPUT,FORWARD三个链的配置iptables -X //删除所有用户配置的规则②配置接入、输出、转接三个链iptables -P IN...
2019-12-06 11:37:29 7580
原创 SSh
SSH是一种网络协议,他可以保证通信安全。远程主机收到请求,把公钥发给用户,用户用收到的公钥进行密码加密,然后发给服务器,服务器用自己的私钥进行解密SSH分为openssh-client和openssh-server,一个客户端一个服务端echo -e “\033[31;1m ******************************* \033[0m”echo -e “\033[3...
2019-12-06 10:53:10 144
转载 Linux运维涉猎
1.CentosCentOS是免费版,推荐在官网上直接下载,网址:https://www.centos.org/download/点击前往网易镜像下载2.vmware workstation14 64下载网址:https://www.vmware.com/products/workstation-pro/workstation-pro-evaluation.html点击在弹出...
2019-12-06 10:00:23 106
json-viewer.crx
2019-11-24
Fiddler Web Debugger.zip
2019-11-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人