源始天空

闲散浪人

C#关于教程里反射的代码错误记录

错误代码: foreach (MethodInfo m in type.GetMethods()) { foreach (Attribute a in m.GetCustomAttributes(true)) { ...

2018-10-24 09:23:53

阅读数 152

评论数 1

kali linux 源以及linux内核安装遇到的一些问题记录

解除学习kali linux时,在网上找了很多源,都不适合,后来找到了一个合适的源,事后发现可以通过 lsb_release -a 查询自己的linux版本,然后使用对应版本的源即可。 记录一下,源: # 163 deb http://mirrors.163.com/debian/ wheezy...

2018-09-20 18:07:32

阅读数 170

评论数 0

linux 安装 scrapy 报错 ‘段错误’

在执行命令: pip3 install scrapy 时,一直报错‘段错误’ 尝试了很多种解决办法 最后利用管理员权限安装成功了 sudo pip3 install scrapy

2018-07-02 09:31:02

阅读数 710

评论数 0

Linux 安装 twisted 报错 error: ommand ‘x86_64-linux-gnu-gcc’ failed

之前Linux内置的版本是3.5,自己重装了个3.6,估计因此要重装依赖包。 按照所需版本安装: For Python 2.x use: $ sudo apt-get install python-dev For Python 2.7 use: $ sudo apt-get inst...

2018-07-02 09:21:23

阅读数 159

评论数 0

scrapy入门级使用

工作果然都是用的scrapy进行采集数据……今天工作上学习了一下,下班回到家的记录。 先理解scrapy的概念流程(功能流程图自寻)。 Scrapy框架功能流程: scrapy框架先是将spider里的目标网站信息入栈scheduler,然后对网站进行requests后,将respons...

2018-04-27 20:57:57

阅读数 101

评论数 0

python数据处理 json字符串转换成字典

今天工作的时候遇到了这个问题,花了一个小时才解决这个问题,回到家记录一下。 有时候,爬虫爬取的数据是json字符串,大概模式如下: '[{"id": 1,"num": 1},{"id":...

2018-04-27 20:28:00

阅读数 1417

评论数 0

vim配置(python)

添了几个小插件,让自己的vim编辑器更像回事,也提高一下效率。 网上查阅后,自己配置用了这么几个。如果看到熟悉的,不要怀疑,就是一样的。 一、vundle 这个是必须要添加的,其功能是给linux安装第三方插件用 在~/.vimrc文件顶部注释下直接添加如下代码(必须要装在最上面): s...

2018-04-07 14:42:30

阅读数 599

评论数 0

linux下pip3下载的库文件python无法使用

环境如下: kali linux、python3.6(系统内还有python2) 问题描述: pip3下载库文件后,python无法使用。 报错找不到此库文件。 执行pip3 -V后,显示的也是正常的版本。 解决办法: 第一步,卸载python3自带的pip3。 pip3下载的...

2018-04-07 00:42:06

阅读数 837

评论数 0

linux下pip安装Tesseract报错ReadTimeoutError解决办法

网上很多版本,这里就记录一下解决办法。 我使用的是kali linux、python3。 输入的指令是pip3 install Tesseract,报错如下: requests.packages.urllib3.exceptions.ReadTimeoutError:HTTPSConne...

2018-04-06 21:51:58

阅读数 494

评论数 0

python+selenium+headless chrome完成对信息的采集

写完记录一下,看着《python网络数据采集》写的,踩了一堆坑……索幸踩着踩着习惯了…… 思路 一开始的idea是通过输入番号,将番号输入指定搜索引擎,返回搜索引擎搜索到的第一页十个信息,翻页处理这里没有加(主要是个人觉得十个信息也够了)。 功能完整的包括了搜索返回信息并且将信息,以搜索信息...

2018-03-23 21:33:04

阅读数 864

评论数 0

《python网络数据采集》第七章关于2gram模型数据标准化的代码补齐记录

本书第七章,有一段关于ngram模型的介绍,作者用2gram来详细讲解模型。 在数据标准化模块里,作者为了对数据的去重和频率,引入了collections库的OrderedDict函数。其功能是将指定的字典依照value值进行排序。不过作者并未写出完整代码,所以单纯补上那一段函数调用代码是没用的...

2018-03-16 19:30:31

阅读数 224

评论数 1

关于《Python网络数据采集》上的一些无法运行的代码记录

最近自学爬虫的过程中,发现了这本书上个别会引发运行错误的代码,解决后,进行记录。 一,第五章第一节媒体文件中的一段代码 书上原代码为: def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory): path = a...

2018-03-15 20:27:32

阅读数 112

评论数 0

提示
确定要删除当前文章?
取消 删除