python
渴望飞的鱼
这个作者很懒,什么都没留下…
展开
-
[已解决]关于python无法显示中文的问题:SyntaxError: Non-ASCII character '\xe4' in file test.py on line 3, but no enc
转自:https://www.cnblogs.com/KarryWang/p/3260858.html 想在python代码中输出汉字。但是老是出现SyntaxError: Non-ASCII character '\xe4' in file test.py on line , but no encoding declared。 (test.py是我自己的文件,提示错误出现在第4行, 你的文件也会...转载 2018-06-12 10:18:09 · 4039 阅读 · 0 评论 -
python中文编码问题解决UnicodeEncodeError: 'ascii' codec can't encode characters in position 10-14: ordinal n
编码报错:https://www.baidu.com/s?wd=渴望飞的鱼UnicodeEncodeError: 'ascii' codec can't encode characters in position 10-14: ordinal not in range(128) 原因:由于编码问题造成的,解决方法如下:key=urllib.request.quote(key...原创 2018-11-02 14:13:47 · 5976 阅读 · 2 评论 -
python爬虫HTTP报头凭借(python小白笔记八)
HTTP 内容协商要了解 Vary 的作用,先得了解 HTTP 的内容协商机制。有时候,同一个 URL 可以提供多份不同的文档,这就要求服务端和客户端之间有一个选择最合适版本的机制,这就是内容协商。协商方式有两种,一种是服务端把文档可用版本列表发给客户端让用户选,这可以使用 300 Multiple Choices 状态码来实现。这种方案有不少问题,首先多一次网络往返;其次服务端同一文档的...转载 2018-11-07 14:05:49 · 427 阅读 · 0 评论 -
python提取路径名称,最后一个正斜杠后边图片名称(加后缀)字符串(python小白学习笔记五)
爬取京东图片的时候,遇到了一个问题,假如需要把图片存储进去数据库,需要把图片路径和图片名称存储进去数据库,但是图片路径是正斜杠,如下:/img11.360buyimg.com/n7/jfs/t25855/259/1224767986/141142/af393ca6/5b8e328dN0671ae1e.jpg。那么如何提取到 af393ca6/5b8e328dN0671ae1e.jpg 这个名称...原创 2018-11-05 14:50:15 · 13822 阅读 · 1 评论 -
pyhon正则表达式(python小白笔记九)
#正则表达式,描述字符串排列的一套规则原子,是正则表达式中最基本的组成单位。(1)普通字符作为原子(“yue”有三个原子,y u e)(2)非打印字符作为原子(3)通用字符作为原子(4)原子表#(1)p普通字符作为原子import repattern="yue"string="http://yue.cn.com"resultl=re.search(pattern,s...原创 2018-11-15 16:26:51 · 453 阅读 · 0 评论 -
python:pycharm:ModuleNotFoundError: No module named 'scrapy'
最初遇到这个问题的时候,是因为我没有安装scrapy在这个之前,还有一个问题,就是提示pip版本不对,建议是否需要升级下pip版本。另外,如果使用pycharm,请先查看是否用的版本对,如果本机安装了2个以上的python版本,就要注意选择正确了!升级版本完成后,由于scrapy爬虫框架依赖许多第三方库,所以在安装scrapy之前,需确保以下第三方库均已安装:1.lxml库 可通过...转载 2019-02-22 11:46:49 · 7727 阅读 · 1 评论 -
python爬取异步加载的页面的信息
假如某些页面是异步加载他是异步js加载出来的,目的想要拿到这些的url得时候,方法两种。(一)可以用chrome headless,参考网址 python selenium 用法 和 Chrome headless:https://blog.csdn.net/freeking101/article/details/70056173可以执行js语句(二)或者用pyppet...原创 2019-02-27 15:07:24 · 1770 阅读 · 0 评论 -
python学习-字符串前面添加u,r,b的含义
python学习-字符串前面添加u,r,b的含义u/U:表示unicode字符串 不是仅仅是针对中文, 可以针对任何的字符串,代表是对字符串进行unicode编码。 一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u;但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。 建议所有编码方式采用utf8r/R:非转义的原始字符串 与普通字符相比,其他相对特殊...原创 2019-02-27 16:45:01 · 269 阅读 · 0 评论 -
python:中文词法分析(LAC)
转自:https://github.com/baidu/lac中文词法分析(LAC)本项目依赖Paddle v0.14.0版本。如果您的Paddle安装版本低于此要求,请按照安装文档中的说明更新Paddle安装版本。如果您使用的Paddle是v1.1以后的版本,请使用该项目的分支for_paddle_v1.1。注意,LAC模块中的conf目录下的很多文件是采用git-lfs存储,使用git...转载 2019-02-27 17:19:50 · 7149 阅读 · 1 评论 -
Python第三方库jieba(中文分词)入门与进阶(官方文档)
转自:https://blog.csdn.net/qq_34337272/article/details/79554772git:https://github.com/fxsjy/jieba新闻关键字提取和新闻推荐 参考:https://blog.csdn.net/mawenqi0729/article/details/80703164 jieba“结巴”中文分词:做最好的 P...转载 2019-02-27 17:22:44 · 16226 阅读 · 0 评论 -
(转)python:使用LDA进行文档主题建模.md
转自git:https://github.com/duoergun0729/nlp/blob/master/%E4%BD%BF%E7%94%A8LDA%E8%BF%9B%E8%A1%8C%E6%96%87%E6%A1%A3%E4%B8%BB%E9%A2%98%E5%BB%BA%E6%A8%A1.md LDA简介LDA(Latent Dirichlet Allocation)是一种文...转载 2019-02-27 17:25:55 · 3142 阅读 · 2 评论 -
python代理服务器设置以及开启log日志(python小白笔记四)
python代理整理好的代理服务器网址:http://www.xicidaili.com/找验证时间比较短的成功机率较大,验证时间长的可能会失效。"""代理服务器网址:http://www.xicidaili.com/61.135.217.7 端口号:80如果爬取得时候出现相应得异常,需要考虑是否对应得代理IP失效了。"""def use_proxy(proxy_addr,...原创 2018-11-02 17:09:36 · 730 阅读 · 0 评论 -
python设置是否超时,http协议get,post请求(python小白学习笔记三)
(一)设置是否超时循环,当服务器性能不太好的时候,异常更频繁的报,网页长时间没相应,那么网页超时,当需要自己设置超时的时间值时候,有些网站希望10s作为是否超时标准,timeout值就是10 # file=urllib.request.urlopen("http://yum.iqianyue.com",timeout=1)#设置1s作为判断标准,会出现异常 #如果设置大一些30,则没...原创 2018-11-02 16:07:34 · 8753 阅读 · 0 评论 -
如何判断本机是否安装python成功
windows系统,运行——cmd,进入dos窗口,输入python,安装成功的话可以看到版本信息并进入编程模式,如下图(我安装的版本是python 2.7.13):输入 : print 'hello world',按回车。成功打印。...原创 2018-06-09 13:52:10 · 96626 阅读 · 12 评论 -
python print'hello' File "<stdin>",line 1 print 'hello' SyntaxError:invalid syntax
python print'hello' File"<stdin>",line 1 print 'hello'SyntaxError:invalid syntax刚开始看Python,照着书上些了个hello,结果错误:>>> print'hello' File "<stdin>",line 1 print'hello' ...转载 2018-10-31 08:54:53 · 2394 阅读 · 0 评论 -
Python值得一看的网址(更新1031)
利用Eclipse + PyDev 开发第一个Python程序:https://blog.csdn.net/zhubao124/article/details/79183320Python 3.6.3 中文手册:http://www.runoob.com/manual/pythontutorial3/docs/html/Python3教程:http://www.runoob.com/pyt...原创 2018-10-31 10:41:25 · 255 阅读 · 0 评论 -
'pip' 不是内部或外部命令,也不是可运行的程序或批处理文件。
过程中,需要去通过pip安装Django,结果出错了:E:\Dev_Tools\webserver\django>pip install Django'pip' 不是内部或外部命令,也不是可运行的程序或批处理文件。E:\Dev_Tools\webserver\django>python pip install Djangopython: can't open file 'p...转载 2018-10-24 15:05:10 · 38906 阅读 · 3 评论 -
python中下载xpath问题
python安装xpath的时候遇到错误:Collecting xpath Could not find a version that satisfies the requirement xpath (from versions: )No matching distribution found for xpathYou are using pip version 10.0.1, ho...原创 2018-10-24 17:57:51 · 5726 阅读 · 2 评论 -
PyCharm:ModuleNotFoundError: No module named 'selenium'
Mac安装PyCharm后,将已有工程导入,之前使用Mac终端执行脚本时正常,现在报错ModuleNotFoundError: No module named 'selenium',解决方法是在PyCharm重新安装selenium,如下图:...转载 2018-11-01 16:54:19 · 2041 阅读 · 0 评论 -
python爬虫+网页点击事件+selenium模拟浏览器,爬取选股宝内容
(一)PYTHON的安装(已安装,可跳过此步骤) 1、PYTHON下载 PYTHON官网:https://www.python.org/ 按照对应的系统下载,我这里是window系统,点击windows,根据自己系统操作位数下载 ...转载 2018-11-01 17:08:24 · 12423 阅读 · 0 评论 -
python解析html获取节点的内容(python小白笔记六)
在爬取网页的时候,爬下的数据需要解析html。如下代码。使用python3.xfrom bs4 import BeautifulSoup as bshtml='''<html><head> <title class='ceshi'>super 哈哈 star</title></head><body>...原创 2018-11-06 11:39:09 · 12291 阅读 · 0 评论 -
python爬虫爬取京东图片(python小白笔记七)
有时候需要统计,图片参考等,用python爬虫。爬下来的图片再存储到本地,同时把文件的名称取出一下。同时,python真是个有趣的东西,欢迎一起交流学习。代码如下:我的只是提取第一页,同时把图片保存到D盘下边,把图片的原来的名称页提取出来存放到本地文件#https://www.jd.com/#https://search.jd.com/Search?keyword=iphone%E...原创 2018-11-06 11:50:53 · 2678 阅读 · 0 评论 -
python建单抓取网页方法(python小白学习笔记一)
本代码使用的是python3.x方法一:通过运行python,自动打开网页,并抓取该网页。前提:先安装驱动,然后运行即可。详情请查看上一篇文章import osfrom selenium import webdriverbrowser = webdriver.Chrome()#打开网页browser.get("https://einvoice.taobao.com/in...原创 2018-11-02 10:41:35 · 1107 阅读 · 0 评论 -
python获取网页header头部信息(python小白学习笔记二)
方法一:代码查看通过python获取网页的链接url,返回码,以及相关的信息#对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站import urllib.requesturl="https://www.baidu.com/"file=urllib.request.urlopen(url)print('获取当前url:',file.geturl() )prin...原创 2018-11-02 11:47:10 · 52974 阅读 · 1 评论 -
python:xpath 提取一个属性中含有的多个属性值,以及提取指定网址(谷歌网页可以直接复制xpath)
目录通过class调用:通过xpath:使用谷歌直接复制xpath:代码例子:xpath如何取包含多个class属性如果HTML结构是这样通过打开页面,打开xpath,可以直接复制下来!!谷歌十分nice的体验。通过class调用:resp.xpath("//*[@class='otherName']//text()").extract()通过xpath:r...原创 2019-03-05 09:10:33 · 12928 阅读 · 0 评论