python
jianmoumou233
这个作者很懒,什么都没留下…
展开
-
python pip更新包
pip install --upgrade 包名更新指定包的版本:pip install --upgrade 包名==版本号原创 2023-04-12 15:26:39 · 348 阅读 · 0 评论 -
浏览器 User-Agent
浏览器 User-Agent。原创 2023-02-24 19:09:27 · 1485 阅读 · 0 评论 -
scrapy框架 POST请求报400错误
scrapy框架 POST请求报400错误最近使用scrapy post 经常出现400错误,经过排查,大部分原因是因为headers 里面有 content-length;去掉即可。原创 2021-04-06 17:27:00 · 416 阅读 · 1 评论 -
pymongo.errors.CursorNotFound
pymongo.errors.CursorNotFound:查询大量数据引起的:解决方式:find({}, no_cursor_timeout=True)原创 2020-07-10 22:40:58 · 260 阅读 · 0 评论 -
pyinstaller打包exe带图标
1.安装pyinstallerpip install pyinstaller2. 打包pyinstaller -F -i test.ico test.py-F: 不加依赖原创 2020-06-28 11:44:24 · 3511 阅读 · 0 评论 -
pandas 出现 DLL load failed while importing aggregations
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Users\m\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pandas\__init__.py", line 55, in <module> from pandas.core.api import ( File "C:原创 2020-06-11 16:05:15 · 5508 阅读 · 1 评论 -
PyMongo游标超时问题
当读取数据量比较大的时候,PyMongo会出现游标连接超时的问题;设置下timeout 参数即可get_collection(XXXX).find({}, timeout=False)原创 2020-05-29 11:34:14 · 1147 阅读 · 0 评论 -
python---实现字符串反转
实现字符串反转def fanzhuan(s): s = list(s)[::-1] return "".join(s)print(fanzhuan("abcdef"))>>> fedcba原创 2020-01-13 18:05:41 · 234 阅读 · 0 评论 -
python---字符串转float or int
字符串转 整型或者 浮点型“12.2” -> 12.2“12” -> 12def str_to_float(s): data = {"0": 0, "1": 1, "2": 2, "3": 3, "4": 4, "5": 5, "6": 6, "7": 7, "8": 8, "9": 9, ".": "."} if "." in s: _num =...原创 2020-01-10 18:42:34 · 1944 阅读 · 0 评论 -
python基础学习---实现优先队列
使用堆实现优先队列:# coding: utf-8import heapqclass PriorityQueue(object): def __init__(self): self.queue = [] self._index = 0 def push(self, item, pri): heapq.heappush(s...原创 2020-01-08 11:18:46 · 171 阅读 · 0 评论 -
腾讯课堂IT培训课程爬虫+分析
说明: 仅供自己学习matplotlip和数据分析。闲来无趣,安卓刚兴起,培训班兴起,网上培训如雨后春笋。培训机构刚开始在网上放些免费的,入门级的课程,提高自己的机构的知名度,从而引流到付费课程。网友到都是 尚学堂。黑马程序,马哥教育的‘泄露’机密课程视频。从心理学角度看待这个问题就会明白,这类视频应该是机构自己泄露的。现在腾讯课堂里面的课程相对来说越来越多,学的人也很多。免费的东西多多少少还是...原创 2019-08-02 16:28:11 · 1228 阅读 · 2 评论 -
一道有趣的Python面试题--引发的思考
最近遇到一个Python的面试题,挺有意思,虽然很简单,但是猛的一想还真不会呢,先上题:编写一个函数或者类实现以下功能:with f() as f: print("hello world")# out:starthello worldend应该是可以想到python里面的上下文管理器;Pyhton class 里有__enter__ 和__exit__,他们是可以实现这个...原创 2019-07-20 11:43:10 · 226 阅读 · 0 评论 -
爬虫-猫眼电影票房
背景最近也不知道咋了,一直遇到 字体反爬手段,起点中文网,抖音等等吧,猫眼我一直想搞,只是没有精力了,前面搞了2个了,不差这一个。搞完这个,不在搞字体反爬了。目标网站 猫眼票房:https://piaofang.maoyan.com/?ver=normal就这个鬼看源码:这不和抖音 起点一样,窃喜.jpg那就查找字体 的url 或者文件 。这个网页没有,好像详情页是有url的 ...原创 2019-07-07 17:53:08 · 32554 阅读 · 3 评论 -
一个奇怪的网站-- 猫眼
偶尔的机会发现一个神奇的网猫眼,有个同事想把猫眼的首页的 城市的 url和ID 搞下来。根据以往的经验 如果网页源码里面没有,那就是ajax 抓包分析,查看源码:查找上海没有。那就抓包:我擦,就这个请求,没有ajax请求的url。这怪了,那城市是从哪过来的呢,没有 ajax 请求,那就一个个分析js吧,:先找个关键词:一个一个的去js查找这个:从他开始:哈哈哈,居然有了:...原创 2019-07-07 17:53:28 · 1489 阅读 · 0 评论 -
字体文件反反爬-- 起点中文网
工作中遇到一个,以前没有遇到的问题是,网站把重要的数字都转换成 其他的东西爬取网站https://book.qidian.com/info/1011454545 起点女生网通过审查元素是这样的:查看网页源码:通过搜索查找,原来网站做了反扒的措施,正好前几天看个关于这样的文章,教怎样反爬的。通过搜索引擎查找相关的资料,原来有人做过类似的反反爬,猫眼,汽车之家都是这种方式....原创 2019-07-07 17:53:58 · 3095 阅读 · 3 评论 -
爬虫好搭档之 w3lib
time: 2018/04/10w3lib 是scrapy的基础插件,用来处理html,灰常的好用,清理文本带有HTML标签的数据;官方文档 1. w3lib.encoding.html_body_declared_encoding(html_body_str) 作用是返回网页的编码,如果网页有&lt;meta charset=utf-8&gt;就会返回utf-8 2. w3lib...原创 2019-07-07 17:57:53 · 2176 阅读 · 0 评论 -
爬虫之scrapy和splash 结合爬取动态网页
scrapy和splash 结合爬取动态网页安装scrapy-splash: pip install scrapy-splash安装splash: sudo docker pull scrapinghub/splash运行splash: docker run -it -d -p 8050:8050 --name splash scrapinghub/splash编写scrap...原创 2019-07-07 17:58:06 · 1451 阅读 · 0 评论 -
Tornado RequestHandler包含的方法
方法 说明 RequestHandler.initialize() 初始化变量和init()一样 RequestHandler.prepare() 在get/post之前调用 RequestHandler.on_finish() 在request完成之后调用 RequestHandler.flush(include_footers=Fal...原创 2019-07-07 17:57:37 · 1711 阅读 · 0 评论 -
爬虫之 爬取京东计算机书籍
爬取京东的计算机类书籍1. 工具: requests, pycharm, scrapy, mongodb2. 网页提取工具: xpath1. 分析京东网页:打开京东网站 查看源码发现不是动态网页,而且都是列表, 说明了很好处理;开始分析;我们只要提取书名,书的链接, 书的出版社,书的作者,评价数,价格I注意一下,书的价格, 评论数,源码并没有,说明是ajax请求;...原创 2019-07-07 17:56:41 · 5379 阅读 · 0 评论 -
Python-happybase操作Hbase
通过happybase 操作hbase,在此只是使用了一些常规,简单的操作;详细自行查看官方文档【http://happybase.readthedocs.io/en/latest/】# coding: utf-8import happybasefrom pprint import pprint'''pip install happybasetime: 08/05/2018...原创 2019-07-07 17:57:59 · 608 阅读 · 0 评论 -
爬虫好搭档之parsel
parsel 是scrapy 出品的,也是scrapy内置的选择器包含re、css、xpath选择器,依赖lxml,比起bs4好用的不要不要的。 用过scrapy,再用它,其实都是一样的,scrapy团队把它单独出来了个库,这样可以单独使用,不必使用scrapy 1. 安装: pip install parsel or easy_install parsel 2. 结合requests...原创 2019-07-07 17:57:46 · 11148 阅读 · 0 评论 -
连接mongo使用URI 有特殊字符 '@' 或者":"
连接mongo使用URI 有特殊字符 '@' 或者":"举个例子:使用pythonMONGO_URI="mongodb://user:pass@wd@127.0.0.1:27017"密码里面有个@ 连接会报错解决方法:把 @ 换成 %40把 : 换成 %3A感谢: https://blog.csdn.net/u013732444/article/details...原创 2019-07-07 17:54:10 · 5553 阅读 · 0 评论