- 博客(14)
- 收藏
- 关注
原创 python基础
#b=[7,'cd',9]#c={"abc":7,"abcd":8,"q":"python"}#e=set('abcdefgafc')#f=set('abcdtrghj')'''b='9'if(b=='9'): print('abc')'''#if'''a=10b=1if(a>19): print(a) if(b<9): ...
2019-07-24 22:15:56 120
原创 正则筛选txt内容
import refh1=open("C:\\Users\\gaoxingyuan\\Desktop\\111.txt","w",encoding='utf-8')fh=open("C:\\Users\\gaoxingyuan\\Desktop\\123.txt","r",encoding='utf-8')pat="id=(.*?)&t"a=[]for i in fh: ...
2019-07-24 22:12:34 379
原创 正则表达式
import restr1='wangluochongcheng1601gaoxingyuan'#普通字符为原子pat1='gaoxingyuan'res1=re.search(pat1,str1)#print(res1)#非打印字符为原子'\n':换行符 '\t':制表符str2='''wangluochongcheng1601gaoxingyuan'''pat2='\n...
2019-07-24 22:11:30 121
原创 爬取大河新闻网新闻
#新闻爬虫#需求:将大河网新闻所有新闻爬到本地#思路:#先爬首页,通过正则表达式获取所有新闻链接#然后依次爬各新闻,并存储到本地import reimport osimport urllib.requestimport urllib.errorimport randommy_heardrs=["Mozilla/5.0 (Windows NT 6.3; WOW64) Apple...
2019-07-24 22:09:45 227
原创 糗事百科段子爬虫
#糗事百科段子爬虫#用户代理#多行匹配:需要用到模式修正符S 让.匹配包括换行符import reimport urllib.requesthead=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/5...
2019-07-24 22:06:26 104
原创 爬虫的异常处理
爬虫的异常处理URLError出现的原因1)连接不上服务器2)远程url不存在3)无网络4)触发HTTPErrorHTTPError310 :重新定向到新的URL,永久性302 :重新定向到临时的URL,非永久性304 :请求的资源未更新400 :非法请求401 :请求未经授权403 :禁止访问404 :没有找到对应页面500 :服务器内部出现的错误501 :服务器不...
2019-07-24 22:03:56 133
原创 浏览器伪装
#浏览器伪装import urllib.requestimport urllib.errorimport random#头文件格式header=("User=Agent",具体用户代理值)my_hearders=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0...
2019-07-24 22:00:48 433
原创 urllib超时设置
#超时设置import urllib.requestfor i in range(0,100): file=urllib.request.urlopen("http://www.baidu.com",timeout=1) try: print(file.read().decode('utf-8')) except Exception as err:...
2019-07-24 21:59:35 831
原创 xpath表达式基础
/ :逐层提取text():提取标签下面的文本//标签名 :提取所有名为**的标签//标签名[@属性=‘属性值’] :提取属性为XX的标签@属性名 :代表取某个属性的值实例提取标题:/html/head/title/text()提取所有的div标签://div提取div中标签的内容://div[@class=‘tools’]...
2019-07-24 21:58:31 96
原创 ip代理构建
#IP代理的构建'''import urllib.requestip="54.39.24.37:3128"proxy=urllib.request.ProxyHandler({"http":ip})opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)urllib.request.install_open...
2019-07-24 21:56:23 148
原创 get请求
#自动模拟HPPT请求#get请求--实现百度信息自动搜索import urllib.requestimport re##keywd="python"#如果关键字是中文,则需要进行转码#keywd='马云'#keywd=urllib.request.quote(keywd)##url="http://baidu.com/s?wd="+keywd##data=urllib.r...
2019-07-24 21:55:08 166
原创 post模拟登录
#postimport urllib.requestimport urllib.parse#urllib.parse主要是设置表单的内容posturl="https://www.iqianyue.com/mypost"postdada=urllib.parse.urlencode({ "name":"123123","pass":"123456" }).encode("...
2019-07-24 21:53:21 974
原创 爬取CSDN博客首页的文章
#爬取https://blog.csdn.net/首页所有文章到本地import reimport osimport urllib.requestimport urllib.error#设置用户浏览器代理header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik...
2019-07-24 21:48:57 993
原创 urllib的简单用法
urllib的简单用法import urllib.request#urlopen(网页地址)file=urllib.request.urlopen("http://zzuli.edu.cn")#urlretrieve(网址,本地文件存储地址)直接下载网页到本地#导出文件路径要用双斜杠\\ '''urllib.request.urlretrieve("http://www...
2019-07-24 21:45:34 138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人