
python
最美的情郎
这个作者很懒,什么都没留下…
展开
-
Python用set方法求两个list的差集(轉)
源地址:https://www.jb51.net/article/56980.htm 本文实例讲述了Python求两个list的差集、交集与并集的方法。分享给大家供大家参考。具体如下:list就是指两个数组之间的差集,交集,并集了,这个小学数学时就学过的东西,下面就以实例形式对此加以分析。一.两个list差集如有下面两个数组:a = [1,2,3]b = ...转载 2018-07-18 17:05:59 · 1234 阅读 · 0 评论 -
爬虫验证码自学习知识保存
https://blog.csdn.net/j2IaYU7Y/article/details/79664196?utm_source=blogxgwz4https://blog.csdn.net/HuangZhang_123/article/details/72819061?utm_source=blogxgwz5 Python OCR识别图片验证码(二)https://blog.csdn...原创 2018-10-24 23:38:56 · 213 阅读 · 0 评论 -
Python爬虫四种验证码的解决思路
1.输入式验证码这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图 图1 图2 解决思路:这种是最简单的一种,只要识别出里面的内容,然后填入到输入框中即可。这种识别技术叫OCR,这里我们推荐使用Python的第三方库,tesserocr。对于没有什么背影影响的验证码如图2,直接通过这个库来识别就可以。但是对于有...转载 2018-10-23 15:16:55 · 2263 阅读 · 0 评论 -
10行代码爬取全国所有A股/港股/新三板上市公司信息
摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外,可能还想透过表格背后再挖掘些有意思或者有价值的信息。这时,可用python爬虫来实现。本文采用pandas库中的read_html方法来快速准确地抓取网页中的表格数据。由于本文中含有一些超链接,微信中无法直接打开,所以建议点击最左下角阅读原文阅读,体验更好,也可以复制链接到浏览器打开:https://www...转载 2018-10-23 00:09:46 · 1692 阅读 · 0 评论 -
将爬取列表页和单页的两个py文件合并,并且将python3代码转换成python2.7
更改的地方:合并两个test.py并且修改,更改gs_extractor.py,合并page-config.json和list-config.json为config.json并修改。简单思路:先将合并后test文件的python3代码调试成功,保留一份,然后再去修改python2.7代码。代码中遇到的问题以及参考的的知识记录:在python3中encoding=“utf-8"这个参数是...原创 2018-10-09 18:02:39 · 506 阅读 · 0 评论 -
判断爬取的文件数量是否完全
描述:最近爬取了某大学的论文网站上面的论文,但是发现网页上数量是227篇,我下载下来只有226篇,所以写了此代码想找出来少了那一篇。过程中,我先是判断了两个列表中是否存在不同的元素并输出,但是发现是完全相同的,接着我就想可能是网页中存在重复的元素,就判断了urll列表中是否自身包含重复元素。结果:最后发现该网站类别下有两篇相同的文章,我的爬虫代码里有判断去重,所以只下载了226篇。代码...原创 2018-09-30 17:43:14 · 389 阅读 · 0 评论 -
报错:http.client.IncompleteRead: IncompleteRead(180224 bytes read, 39396 more exp
在我爬取某网站时出现了该错误,但是只要重新运行一下程序还是请求成功。我搜索了一下百度,没有发现类似的答案,不过在stackoverflow有类似的疑问。等会后面有链接。可能出现这个问题的原因:这里执行urllib的read()函数时候,它会捕获任何不完整的读取异常。因此出现了报错。我们可以不让它捕获异常,因此当读取链接的时候我们可以用try / catch来抛出异常。我之前的一段代...原创 2018-09-29 17:59:01 · 14848 阅读 · 1 评论 -
js爬取
有时间看https://blog.csdn.net/qq523176585/article/details/78693900http://www.cnblogs.com/buzhizhitong/p/5697683.html——系列文章http://blog.sina.com.cn/s/blog_620987bf0102v2r8.html ---selenium键...原创 2018-09-29 15:03:51 · 453 阅读 · 0 评论 -
将爬取的文章转JSON存储遇到的坑
urls = "https://arxiv.org/%s" %(str(url)) ress = requests.get(urls) # ress.encoding = "gbk" # print(ress.text.encode('utf8')) # exit() # ress.encoding=...原创 2018-09-26 15:01:54 · 587 阅读 · 0 评论 -
读崔庆才之小白进阶之Scrapy第一篇遇到的问题
第一个问题:No module named 'win32api'错误解决方法:直接在命令行:pip install pypiwin32。第二个问题:No module named 'mysql'错误解决方法: 因为在python3里mysql-python不再兼容,我们这里改用pymysql。so我们pip install pymysql之前在博主的事情sql.py的代码...原创 2018-09-25 17:16:24 · 397 阅读 · 0 评论 -
安装mysql-python报错Microsoft Visual C++ 14.0 is required的解决办法
1.若是python2.x版本,进入https://www.lfd.uci.edu/~gohlke/pythonlibs/#mysql-python下载相应版本的依赖,然后(pip install +下载文件的位置)安装,然后继续安装 pip install mysql2.如果是python3的话 好像是mysql-python 不兼容,直接 pip install pymysql ...原创 2018-09-17 12:01:04 · 1483 阅读 · 0 评论 -
使用Scrapy爬取一个网站的数据
Scrapy框架的初步运用上午刚配置好scrapy框架,下午我就迫不及待的做了一个小demo来测试一下,结果证明scrapy真是太强大了。我感觉等对它掌握到炉火纯青的地步后,就没有什么数据是爬不到的了,O(∩_∩)O哈哈~。以下步骤是建立在成功安装并配置好scrapy的基础上的.1.新建一个Scrapy项目打开cmd控制台界面输入:scrapy startproject my...转载 2018-08-23 17:25:01 · 1830 阅读 · 0 评论 -
jieba分词
参考文章:Github上的项目———jieba中文分词对于NLP(自然语言处理)来说,分词是一步重要的工作,市面上也有各种分词库,11款开放中文分词系统比较。1.基于词典:基于字典、词库匹配的分词方法;(字符串匹配、机械分词法)2.基于统计:基于词频度统计的分词方法;3.基于规则:基于知识理解的分词方法。第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹...转载 2018-08-23 17:21:39 · 2078 阅读 · 0 评论 -
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": 的解决办法
安装Twisted包可以跳过这个库的安装,因为该库需要很大的内存空间.1.首先打开https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到对应版本的Twisted并下载到你的文件夹我这里是:C:\Users\judy\Downloads\Twisted-18.7.0-cp36-cp36m-win_amd64.whl2.利用pip in...原创 2018-08-20 10:10:02 · 497 阅读 · 0 评论 -
爬百度百科黄渤的爬虫
from urllib.request import urlopenfrom urllib.parse import quoteimport stringfrom bs4 import BeautifulSoupurl=r"https://baike.baidu.com/item/黄渤/7212966?fr=aladdin"url=quote(url,safe=string.print...原创 2018-07-19 15:47:07 · 245 阅读 · 0 评论 -
python中出現缩进错误怎么办
在Notapad++中点击视图——》显示符号------>显示空格与制表符就会发现缩进错误然后复制制表符粘贴到缩进错误的地方OKKKK原创 2018-07-18 17:38:07 · 5339 阅读 · 0 评论 -
正则表达式 re.findall 用法(转)
http://www.cnblogs.com/xieshengsen/p/6727064.html 正则 re.findall 的简单用法(返回string中所有与pattern相匹配的全部字串,返回形式为数组)语法: 1 findall(pattern, string, flags=0) import rePython 正则表...转载 2018-07-18 16:46:42 · 8935 阅读 · 0 评论 -
自己保存
https://blog.csdn.net/hochenchong/article/details/78868260 SSH 环境搭建及注解实现登录功能 DEMOhttps://blog.csdn.net/linhaiyun_ytdx/article/details/78165079 SSH整合开发的小Demo--网上银行系统之管理员模块开发https://www.cnblo...原创 2018-11-09 09:41:45 · 141 阅读 · 0 评论