- 博客(6)
- 资源 (6)
- 收藏
- 关注
转载 python的多进程与多线程知识点提炼
结合廖雪峰大神的教程进行了一些知识点的提炼。廖神的教程地址为:原文地址1. 进程Unix/Linux操作系统提供了一个fork()系统调用,它非常特殊。普通的函数调用,调用一次,返回一次,但是fork()调用一次,返回两次,因为操作系统自动把当前进程(称为父进程)复制了一份(称为子进程),然后,分别在父进程和子进程内返回。子进程永远返回0,而父进程返回子进程的ID。这样做的理由是,...
2019-01-20 20:44:44 345
原创 python识别验证码
验证码是页面上非常常见的一种识别用户身份的方式,如图所示:在使用爬虫爬取网页时,我们要对验证码进行自动的识别和填写。这里使用tesseract来完成对验证码的扫描识别。1. 安装tesseract。tesseract是一个独立的软件,并不是python模块,需要单独的下载并安装。下载地址:https://github.com/UB-Mannheim/tesseract/wiki...
2019-01-13 17:53:19 6506
原创 用Selenium进行百度搜索结果简单提取
利用Selenium访问百度,输入搜索关键字后,提取搜索页面的查询结果。1. 以headless chrome方式访问百度首页#chrome选项options = webdriver.ChromeOptions()#使用无头chromeoptions.set_headless()#配置并获得WebDriver对象driver = webdriver.Chrome( 'D...
2019-01-12 13:45:06 15044
原创 Selenium启动headless Chrome和Firefox
新版本的selenium已经明确警告将不支持PhantomJS,建议使用headless的Chrome或FireFox。两者使用方式非常类似,基本步骤为:下载驱动 创建选项,设定headless 创建WebDriver,指定驱动位置和选项 对URL发起请求,获得结果,进行解析Chrome驱动的下载路径为:https://chromedriver.storage.googleap...
2019-01-12 09:21:11 940
原创 用Python模仿名人的风格写一句话
抓取某位名人的演讲内容,通过对演讲内容用词的分析,按照这篇演讲的风格模拟生成一段文字。整体思路是从网上抓取内容后对格式进行整理,提取文章中的所有单词。然后在统计每个单词后面衔接的单词的频次。例如:I believe I can fly, I believe I can touch the sky. 这句话中,单词I后面出现的单词是believe 2次,can 2次,而can后面出现的单词是fl...
2019-01-08 20:46:52 1010
转载 解决VSCode终端中文乱码问题
VSCode终端其实调用的是cmd.exe,所以当这里出现中文乱码的时候要解决的是cmd的编码设置问题。可以通过chcp命令查看cmd的编码设置,GBK2312的代码页编号是936,然后改成utf-8的编码即可,utf-8对应的代码页编号是65001,所以执行chcp 65001就可以把cmd的编码设置成uft-8了,这样就解决了乱码问题1.查看原有编码2.执行chcp 650...
2019-01-05 10:23:16 28869 4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人