![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python笔记
楓川
一起学习呀
展开
-
urllib的简单用法
urllib的简单用法 import urllib.request #urlopen(网页地址) file=urllib.request.urlopen("http://zzuli.edu.cn") #urlretrieve(网址,本地文件存储地址)直接下载网页到本地 #导出文件路径要用双斜杠\\ ''' urllib.request.urlretrieve("http://www...原创 2019-07-24 21:45:34 · 127 阅读 · 0 评论 -
正则筛选txt内容
import re fh1=open("C:\\Users\\gaoxingyuan\\Desktop\\111.txt","w",encoding='utf-8') fh=open("C:\\Users\\gaoxingyuan\\Desktop\\123.txt","r",encoding='utf-8') pat="id=(.*?)&t" a=[] for i in fh: ...原创 2019-07-24 22:12:34 · 376 阅读 · 0 评论 -
正则表达式
import re str1='wangluochongcheng1601gaoxingyuan' #普通字符为原子 pat1='gaoxingyuan' res1=re.search(pat1,str1) #print(res1) #非打印字符为原子'\n':换行符 '\t':制表符 str2='''wangluochongcheng1601gaoxingyuan ''' pat2='\n...原创 2019-07-24 22:11:30 · 117 阅读 · 0 评论 -
爬取大河新闻网新闻
#新闻爬虫 #需求:将大河网新闻所有新闻爬到本地 #思路: #先爬首页,通过正则表达式获取所有新闻链接 #然后依次爬各新闻,并存储到本地 import re import os import urllib.request import urllib.error import random my_heardrs=[ "Mozilla/5.0 (Windows NT 6.3; WOW64) Apple...原创 2019-07-24 22:09:45 · 216 阅读 · 0 评论 -
糗事百科段子爬虫
#糗事百科段子爬虫 #用户代理 #多行匹配:需要用到模式修正符S 让.匹配包括换行符 import re import urllib.request head=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/5...原创 2019-07-24 22:06:26 · 102 阅读 · 0 评论 -
爬虫的异常处理
爬虫的异常处理 URLError出现的原因 1)连接不上服务器 2)远程url不存在 3)无网络 4)触发HTTPError HTTPError 310 :重新定向到新的URL,永久性 302 :重新定向到临时的URL,非永久性 304 :请求的资源未更新 400 :非法请求 401 :请求未经授权 403 :禁止访问 404 :没有找到对应页面 500 :服务器内部出现的错误 501 :服务器不...原创 2019-07-24 22:03:56 · 129 阅读 · 0 评论 -
浏览器伪装
#浏览器伪装 import urllib.request import urllib.error import random #头文件格式header=("User=Agent",具体用户代理值) my_hearders=[ "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0...原创 2019-07-24 22:00:48 · 424 阅读 · 0 评论 -
urllib超时设置
#超时设置 import urllib.request for i in range(0,100): file=urllib.request.urlopen("http://www.baidu.com",timeout=1) try: print(file.read().decode('utf-8')) except Exception as err: ...原创 2019-07-24 21:59:35 · 821 阅读 · 0 评论 -
xpath表达式基础
/ :逐层提取 text():提取标签下面的文本 //标签名 :提取所有名为**的标签 //标签名[@属性=‘属性值’] :提取属性为XX的标签 @属性名 :代表取某个属性的值 实例 提取标题:/html/head/title/text() 提取所有的div标签://div 提取div中标签的内容://div[@class=‘tools’] ...原创 2019-07-24 21:58:31 · 93 阅读 · 0 评论 -
ip代理构建
#IP代理的构建 ''' import urllib.request ip="54.39.24.37:3128" proxy=urllib.request.ProxyHandler({"http":ip}) opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler) urllib.request.install_open...原创 2019-07-24 21:56:23 · 143 阅读 · 0 评论 -
get请求
#自动模拟HPPT请求 #get请求--实现百度信息自动搜索 import urllib.request import re ##keywd="python" #如果关键字是中文,则需要进行转码 #keywd='马云' #keywd=urllib.request.quote(keywd) ##url="http://baidu.com/s?wd="+keywd ##data=urllib.r...原创 2019-07-24 21:55:08 · 163 阅读 · 0 评论 -
post模拟登录
#post import urllib.request import urllib.parse #urllib.parse主要是设置表单的内容 posturl="https://www.iqianyue.com/mypost" postdada=urllib.parse.urlencode({ "name":"123123","pass":"123456" }).encode("...原创 2019-07-24 21:53:21 · 954 阅读 · 0 评论 -
爬取CSDN博客首页的文章
#爬取https://blog.csdn.net/首页所有文章到本地 import re import os import urllib.request import urllib.error #设置用户浏览器代理 header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik...原创 2019-07-24 21:48:57 · 980 阅读 · 0 评论 -
python基础
#b=[7,'cd',9] #c={"abc":7,"abcd":8,"q":"python"} #e=set('abcdefgafc') #f=set('abcdtrghj') ''' b='9' if(b=='9'): print('abc') ''' #if ''' a=10 b=1 if(a>19): print(a) if(b<9): ...原创 2019-07-24 22:15:56 · 113 阅读 · 0 评论