- 博客(5)
- 收藏
- 关注
转载 BitMap位图法实现海量数据下的查重、去重
BitMap位图法实现海量数据下的查重、去重转载地址:https://www.jianshu.com/p/8d074e8d02aa?utm_campaign=hugo在一些海量数据的场景中,做一些查重、去重、排序,一般的方法难以实现,因为内存占用太大了,比如以下问题:问题一:10亿个正整数,给定一个数值,如何快速判定该数值是否在10亿个正整数当中?假如机器只有1G内存?问题二:比如说是一组...
2020-04-26 12:37:16
1467
原创 python3爬虫:爬取电影天堂电影信息
python3爬虫:爬取电影天堂电影信息#爬取电影天堂电影信息#爬取电影天堂电影信息#爬取电影天堂电影信息from lxml import etreeimport requestsBASE_DOMAIN = 'https://www.ygdy8.net'HEADERS = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64...
2020-04-18 17:37:34
1222
原创 UnicodeDecodeError: 'gbk' codec can't decode byte 0xd0 in position 23475: illegal multibyte sequence
Python爬虫错误:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xd0 in position 23475: illegal multibyte sequence举一个利用Python网络爬虫爬取电影天堂网站电影数据发生解码错误的例子:报错的原代码如下:#爬取电影天堂电影信息from lxml import etreeimpo...
2020-04-02 15:05:57
285
原创 如何将PyCharm输出窗口的内容分行再输出
如何将PyCharm输出窗口的内容分行在输出最近在学习网络爬虫,新安装的PyCharm中输出网页源代码的时候,所有爬下来的代码全都在一行上输出,不仅不美观而且查看起来也非常不方便。具体情境如下图所示:要解决这中问题很简单,只要选中窗口左边的“自动换行”选项就可以了,如下图所示:当我们选中自动换行按钮之后,网页信息就换行输出了。...
2020-03-30 18:26:53
5970
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人