python学习
点点滴滴25
菜鸡
展开
-
用xpath批量爬取高清图片 图解教程 python 爬虫
目录用到的库:思路:需要知道的xpath用法:分析:具体代码:总结:用到的库:from lxml import etreeimport osimport datetimeimport requests思路:因为我要爬取某个分类下的所有图片,所以首先我要分析这个url的组成。思路如下:获取每一页的url → 获取每一页的28个详情页面的...原创 2019-11-16 17:10:09 · 5244 阅读 · 3 评论 -
python3.6 中无法从lxml中导入etree 2019年11月14日18:39:33 亲测可行
环境:py3.6.6 win10搜全网,搜了一个多小时,终于解决了cmd : pip install lxml==4.2.1终于不红了原创 2019-11-14 18:39:50 · 652 阅读 · 1 评论 -
requests库学习
目录带参数get请求:解析json获取二进制数据:添加头部:基本post请求高级操作:1.文件上传:2.获取cookie:3.会话维持4.证书验证5.设置代理:6.认证设置:其他技巧:带参数get请求:1.字典形式import requestsurl="http://httpbin.org/get"data={ 'nam...原创 2019-11-13 18:27:44 · 185 阅读 · 0 评论 -
python小脚本 查询csdn博客访问量、粉丝以及喜欢 (2019.10.13更新----2019.10.25再次更新)
我每天打开电脑,前五件事就是看csdn访问量,一直期待访问量突破100W,可能那是个梦吧但是也不能放弃!需要用到的库pyquery、requests主要技术点Requests库获取网页我看到许多爬虫教程都是用的urllib2等比较过时的爬虫库来获取网页信息,一来python2马上停止支持,python2时代的urllib2的凸现出来的毛病会越来越多且无法得到官方的修复...原创 2019-10-02 20:52:28 · 314 阅读 · 2 评论 -
BeautifulSoup库
BeautifulSoup库是解析HTML和xml的强大的工具库安装:pip install beautifulsoup4引用:import bs4或者是from bs4 import BeautifulSoupbs4的四种解析器:HTML:HTML其实就是一个标签树,存在三种遍历:下行遍历,上行遍历,平行遍历。上行遍历:平行遍历的条件:...原创 2018-09-17 21:40:21 · 138 阅读 · 0 评论 -
模拟搜索
搜索引擎关键词提交接口:百度:http://www.baidu.com/s?wd=keyword360:http://www.so.com/s?q=keyword百度搜索:import requests keyword='python' 要搜索的关键词:XXXXtry: kv={'wd':keyword} 构造一...原创 2018-09-16 10:54:01 · 438 阅读 · 0 评论 -
记第一次爬虫
出不来结果的时候,真是着急,期间犯了很多错误,这个过程痛苦并快乐着哈哈哈哈哈,哈哈哈哈哈import urllib.requestimport reimport osurl='https://www.52pojie.cn/home.php?mod=medal'page=urllib.request.urlopen(url).read()page=page.decode('gbk')z...原创 2018-07-15 10:03:16 · 415 阅读 · 0 评论 -
字典
字典用花括号括起来,字典是由键值对组成的,键值对有键和值组成,键和值由:分开,每个键值对由逗号分开。my_dict={'tom':2939430,'li':3248320948,'kk':7432948348} #字典初始化print(my_dict)print(len(my_dict)) #求字典的长度print('tom'in my_dict) #判断‘tom’这个键是否...原创 2018-07-14 15:24:11 · 345 阅读 · 0 评论 -
元组
lambda为匿名函数,(就是简化了函数,更美观,简洁),格式:lambda 参数:返回值 。原创 2018-07-14 11:44:30 · 137 阅读 · 0 评论 -
list
列表和字符串的不同点:1.列表是通过[]生成的,列表元素之间通过逗号隔开,而字符串用双引号生成2.列表的元素内容可以是很多类型的,而字符串的类型只能是字符3.列表内容可变,字符串内容不可变。append()是追加一个新的元素,extend()是追加一个列表,不是新生成一个列表,而是在原来的列表上做修改,而字符串连接是新生成一个字符串,原字符串没有改变,()里填的是新追加的内容。insert()在任...原创 2018-07-14 11:21:32 · 231 阅读 · 0 评论 -
Python字符串
Python初始化#该函数检查是不是按字典序排列的def IsDictionaryOrder(name): p=name[0] for i in name: if p>i: return False p=i return Truefor line in f: line=line.strip() ...原创 2018-07-12 20:52:24 · 234 阅读 · 0 评论 -
Python 字符串学习
字符串拼接用“+”,字符串重复用“*”,统计字符串的数目用“len()”,另外,if 某一子串 in 主串: 相应的操作如:'''r='hello world!'print(3*r+'hello torromow!')print(len(r))print('a' in r)print('ll' in r)for s in r: print(s)'''r=input('p...原创 2018-07-12 18:29:31 · 175 阅读 · 0 评论 -
Python分支结构和函数学习
选择结构:if XXXXX: XXXXXelse: XXXXX循环结构:for i in range(1,10):(让i从1到9做循环,range()有三个参数,起始,终止,步长(可省略不写))但冒号不能省 XXXXXXXXXXXXXXwhile 结束条件: 循环体定义函数:def 函数名(参数列表): 函数主体部分if i in (1,3,5,7...原创 2018-07-11 15:53:48 · 525 阅读 · 0 评论 -
URL学习
由于要学习爬虫,遂必学URL,少年,加油吧,你的牧野人等着你呢!http://mail.163.com/index.html以此为例,163.com即域名,而mail是服务器名,二者相加为网站名,http是超文本传输协议,当你输入mail.163.com时,浏览器将为你加上http://,找到对应的服务器,服务器再加上/,服务器再找到根目录下的某个网页返回给你,总体来说,过程就是这样。而域名和网站...原创 2018-07-09 10:14:43 · 328 阅读 · 0 评论 -
python 基础学习
python 中有五种数据类型:字符串、int、浮点数、bool数、复数(c语言里没有的),raw_input()接受键盘的输入,把输入当成字符串,print输出到控制台,如:print“Hello World!","happy"这里的”,“相当于一个空格。当参与运算的两个数类型不同时,自动按照以下规则进行类型转换:bool》int》float》complexpython 里导入模块,用impor...原创 2018-06-03 09:38:50 · 157 阅读 · 0 评论