爬虫
文章平均质量分 52
渴望飞的鱼
这个作者很懒,什么都没留下…
展开
-
'pip' 不是内部或外部命令,也不是可运行的程序或批处理文件。
过程中,需要去通过pip安装Django,结果出错了:E:\Dev_Tools\webserver\django>pip install Django'pip' 不是内部或外部命令,也不是可运行的程序或批处理文件。E:\Dev_Tools\webserver\django>python pip install Djangopython: can't open file 'p...转载 2018-10-24 15:05:10 · 38879 阅读 · 3 评论 -
python提取路径名称,最后一个正斜杠后边图片名称(加后缀)字符串(python小白学习笔记五)
爬取京东图片的时候,遇到了一个问题,假如需要把图片存储进去数据库,需要把图片路径和图片名称存储进去数据库,但是图片路径是正斜杠,如下:/img11.360buyimg.com/n7/jfs/t25855/259/1224767986/141142/af393ca6/5b8e328dN0671ae1e.jpg。那么如何提取到 af393ca6/5b8e328dN0671ae1e.jpg 这个名称...原创 2018-11-05 14:50:15 · 13801 阅读 · 1 评论 -
python爬虫HTTP报头凭借(python小白笔记八)
HTTP 内容协商要了解 Vary 的作用,先得了解 HTTP 的内容协商机制。有时候,同一个 URL 可以提供多份不同的文档,这就要求服务端和客户端之间有一个选择最合适版本的机制,这就是内容协商。协商方式有两种,一种是服务端把文档可用版本列表发给客户端让用户选,这可以使用 300 Multiple Choices 状态码来实现。这种方案有不少问题,首先多一次网络往返;其次服务端同一文档的...转载 2018-11-07 14:05:49 · 412 阅读 · 0 评论 -
python中文编码问题解决UnicodeEncodeError: 'ascii' codec can't encode characters in position 10-14: ordinal n
编码报错:https://www.baidu.com/s?wd=渴望飞的鱼UnicodeEncodeError: 'ascii' codec can't encode characters in position 10-14: ordinal not in range(128) 原因:由于编码问题造成的,解决方法如下:key=urllib.request.quote(key...原创 2018-11-02 14:13:47 · 5954 阅读 · 2 评论 -
python代理服务器设置以及开启log日志(python小白笔记四)
python代理整理好的代理服务器网址:http://www.xicidaili.com/找验证时间比较短的成功机率较大,验证时间长的可能会失效。"""代理服务器网址:http://www.xicidaili.com/61.135.217.7 端口号:80如果爬取得时候出现相应得异常,需要考虑是否对应得代理IP失效了。"""def use_proxy(proxy_addr,...原创 2018-11-02 17:09:36 · 720 阅读 · 0 评论 -
python设置是否超时,http协议get,post请求(python小白学习笔记三)
(一)设置是否超时循环,当服务器性能不太好的时候,异常更频繁的报,网页长时间没相应,那么网页超时,当需要自己设置超时的时间值时候,有些网站希望10s作为是否超时标准,timeout值就是10 # file=urllib.request.urlopen("http://yum.iqianyue.com",timeout=1)#设置1s作为判断标准,会出现异常 #如果设置大一些30,则没...原创 2018-11-02 16:07:34 · 8726 阅读 · 0 评论 -
python获取网页header头部信息(python小白学习笔记二)
方法一:代码查看通过python获取网页的链接url,返回码,以及相关的信息#对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站import urllib.requesturl="https://www.baidu.com/"file=urllib.request.urlopen(url)print('获取当前url:',file.geturl() )prin...原创 2018-11-02 11:47:10 · 52831 阅读 · 1 评论 -
python建单抓取网页方法(python小白学习笔记一)
本代码使用的是python3.x方法一:通过运行python,自动打开网页,并抓取该网页。前提:先安装驱动,然后运行即可。详情请查看上一篇文章import osfrom selenium import webdriverbrowser = webdriver.Chrome()#打开网页browser.get("https://einvoice.taobao.com/in...原创 2018-11-02 10:41:35 · 1092 阅读 · 0 评论 -
python爬虫爬取京东图片(python小白笔记七)
有时候需要统计,图片参考等,用python爬虫。爬下来的图片再存储到本地,同时把文件的名称取出一下。同时,python真是个有趣的东西,欢迎一起交流学习。代码如下:我的只是提取第一页,同时把图片保存到D盘下边,把图片的原来的名称页提取出来存放到本地文件#https://www.jd.com/#https://search.jd.com/Search?keyword=iphone%E...原创 2018-11-06 11:50:53 · 2665 阅读 · 0 评论 -
python解析html获取节点的内容(python小白笔记六)
在爬取网页的时候,爬下的数据需要解析html。如下代码。使用python3.xfrom bs4 import BeautifulSoup as bshtml='''<html><head> <title class='ceshi'>super 哈哈 star</title></head><body>...原创 2018-11-06 11:39:09 · 12266 阅读 · 0 评论 -
python爬虫+网页点击事件+selenium模拟浏览器,爬取选股宝内容
(一)PYTHON的安装(已安装,可跳过此步骤) 1、PYTHON下载 PYTHON官网:https://www.python.org/ 按照对应的系统下载,我这里是window系统,点击windows,根据自己系统操作位数下载 ...转载 2018-11-01 17:08:24 · 12404 阅读 · 0 评论 -
PyCharm:ModuleNotFoundError: No module named 'selenium'
Mac安装PyCharm后,将已有工程导入,之前使用Mac终端执行脚本时正常,现在报错ModuleNotFoundError: No module named 'selenium',解决方法是在PyCharm重新安装selenium,如下图:...转载 2018-11-01 16:54:19 · 2007 阅读 · 0 评论 -
python中下载xpath问题
python安装xpath的时候遇到错误:Collecting xpath Could not find a version that satisfies the requirement xpath (from versions: )No matching distribution found for xpathYou are using pip version 10.0.1, ho...原创 2018-10-24 17:57:51 · 5706 阅读 · 2 评论 -
pyhon正则表达式(python小白笔记九)
#正则表达式,描述字符串排列的一套规则原子,是正则表达式中最基本的组成单位。(1)普通字符作为原子(“yue”有三个原子,y u e)(2)非打印字符作为原子(3)通用字符作为原子(4)原子表#(1)p普通字符作为原子import repattern="yue"string="http://yue.cn.com"resultl=re.search(pattern,s...原创 2018-11-15 16:26:51 · 446 阅读 · 0 评论