- 博客(24)
- 收藏
- 关注
原创 《PYTHON3网络爬虫开发实践》——第六章 Ajax数据爬取
第六章 Ajax数据爬取有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:这是因为requests 获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有多种,可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特定算法计算后生成的。对于第一种情况,数据加载是...
2019-02-28 15:07:32 410
原创 《PYTHON3网络爬虫开发实践》——第五章 数据存储
第五章 数据存储用解析器解析出数据之后,接下来就是存储数据了。保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如TXT、JSON、CSV等。另外,还可以保存到数据库中,如关系型数据库MySQL,非关系型数据库MongoDB、Redis 等。爬虫——TXT文本存储import requestsfrom pyquery import PyQuery as pqurl = ...
2019-02-28 15:06:28 352
原创 《PYTHON3网络爬虫开发实践》——第四章 解析库的使用
第四章 解析库的使用4.1 XPath对于网页的节点来说,它可以定义id、 class或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,就可以提取我们想要的任意信息了。XPath提供了超过100个内建函数,用于字符串、数值、时...
2019-02-28 15:04:16 503
原创 《PYTHON3网络爬虫开发实践》——第三章 基本库的使用
第三章 基本库的使用urllib库,有了它,我们只需要关心请求的链接是什么,需要传的参数是什么,以及如何设置可选的请求头就好了,不用深入到底层去了解它到底是怎样传输和通信的。有了它,两行代码就可以完成一个请求和响应的处理过程,得到网页内容。urllib是Python内置的HTTP请求库。包含4个模块。requesturlopen()。利用它模仿浏览器的一个请求发起过程,还带有处...
2019-02-28 15:01:38 721
原创 《PYTHON3网络爬虫开发实践》——第二章 爬虫基础
第二章 爬虫基础URI:Uniform Resource Identifier,即统一资源标志符。URL:Uniform Resource Locator,即统一资源定位符。URN:Uniform Resource Name,即统一资源名称。超文本:网页的源代码HTML就可以称作超文本。F12检查查看。协议类型:http, https, ftp, sftp, smb等。h...
2019-02-28 14:58:47 270
原创 typora + iPic 方便的上传图片到服务器(for Mac)
缘由想将typora里的笔记上传到CSDN,但是图片直接上传的话不会正常显示,于是就在网上搜解决办法,找到了好的工具~1. ipiciPic,它是一个很方便的图片上传工具,它是mac 平台上口碑最好的一个图床工具, 支持微博图床, 七牛云, 阿里云, 腾讯云, 等常见图床,支持拖拽、快捷键、剪贴板上传,支持上传前压缩,上传完毕自动生成 Markdown 并拷贝到剪贴板。可以直接在a...
2019-02-26 11:47:27 1771
原创 《统计学习方法》——第6章 逻辑斯蒂回归与最大熵模型
第六章逻辑斯蒂回归与最大熵模型逻辑斯蒂回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。6.1 逻辑斯蒂回归模型6.1.1 逻辑斯蒂分布x服从逻辑斯蒂分布是指满足以下分布函数和密度函数6.1.2 二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(Y|X)表示。...
2019-02-26 11:36:08 406
原创 《统计学习方法》——第5章 决策树
第五章 决策树决策树是一种基本的分类与回归方法。可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。主要优点:模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树的3个步骤:特征选择、决策树的生成和决策树的修剪。5.1 决策树模型与学习5.1...
2019-02-26 11:34:26 356
原创 抓取猫眼电影排行T100
import requestsimport jsonfrom requests.exceptions import RequestExceptionimport reimport time# 抓取首页def get_one_page(url): try: headers = { 'User-Agent': 'Mozilla/5.0(Macin...
2019-02-22 11:18:55 439
原创 利用正则表达式和Request库爬取知乎发现页面的标题部分
import requestsimport re headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}r = requests.get...
2019-02-22 10:52:37 791
原创 爬虫知乎上“发现”页面的“热门话题”部分,将其问题和答案统一保存成文本形式
import requestsfrom pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like ...
2019-02-22 10:49:01 885
原创 爬取GitHub上所有链接的PDF(占坑)
目标:爬取这个网站的所有PDF。https://github.com/THUNLP-MT/MT-Reading-List#syntax_based_models 下载一个网站的所有PDF:#file-name: pdf_download.py__author__ = 'rxread'import requestsfrom bs4 import BeautifulSoup...
2019-02-21 15:30:24 1503
转载 Neo4j 安装 for mac (社区版)
1.首先去官网下载一个社区版的neo4j https://neo4j.com/download/other-releases/2.解压,打开terminal,通过cd命令进入解压文件夹bin目录下,输入./neo4j start3在浏览器中输入localhost:7474,初始用户名、密码均为neo4j4、使用完毕,输入./neo4j stop关闭数据库转载:http://w...
2019-02-20 15:34:03 11988 3
转载 10分钟上手图数据库Neo4j
转载:https://www.jianshu.com/p/97c6752e928b 随着互联网不断的发展,传统的关系型数据库如oracle,mysql已经难以支撑现下大数据量,高并发的场景了。于是,NoSQL横空出世,有像cassandra这样的column-based,像MongoDB这样document-based。今天在这里猎奇的是一个graph-based的数据库,Neo4j。什么...
2019-02-20 14:51:45 201
原创 Mac MySQL查看默认端口号
show global variables like 'port';mysql> show global variables like 'port';+---------------+-------+| Variable_name | Value |+---------------+-------+| port | 3306 |+------------...
2019-02-17 16:24:36 721
原创 ERROR 1045 (28000): Access denied for user 'xxx'@'localhost' (using password: NO)
1. 先启动MySQLmysql.server start2. 然后输入mysql 就报错ERROR 1045 (28000): Access denied for user 'xxx'@'localhost' (using password: NO) 查阅资料后知道了,应该使用已知的用户名和密码登陆mysql -u root -p 会提示输入密码,如...
2019-02-17 15:45:19 689
转载 如何通过Chrome查看网站登录 Cookie 信息
方法一1.打开浏览器设置选项,或者直接在浏览器打开 chrome://settings/content,进入内容设置选项,可以看到cookie基本设置。如图:2.点击所有Cookie和网站数据即可查看浏览过的网站cookie信息。 方法二1.F12或者单击鼠标右键,选择审查元素。2.点击Network–>DOC–>Headers。此时点击Headers应该...
2019-02-17 14:33:03 9402
原创 TypeError: 'str' object is not callable错误
错误原因:是因为上面自己定义了一个str变量,覆盖掉了Python内置的str()方法。定义之后下面的str()方法变成不可调用的了。解决方法:重新启动一下python应用,移除str被覆盖的代码部分即可。小结:python中内置了很多的函数和类,在自己定义变量的时候,切记不要覆盖或者和他们的名字重复。...
2019-02-12 15:38:56 1662
转载 Python 解决 :NameError: name 'reload' is not defined 问题
对于 Python 2.X:import sysreload(sys)sys.setdefaultencoding("utf-8")对于 <= Python 3.3:import impimp.reload(sys)注意: 1. Python 3 与 Python 2 有很大的区别,其中Python 3 系统默认使用的就是utf-8编码。 2. 所以,对于使用的是Pyt...
2019-02-12 15:23:35 783
原创 Fairseq一些文章
1. 机器翻译模型之Fairseq:《Convolutional Sequence to Sequence Learning》原文:https://blog.csdn.net/u012931582/article/details/837191582. pytorch使用fairseq-py实现实现快速机器翻译(翻译的速度提高了80%,训练速度提升近50%)原文:https://ptor...
2019-02-09 21:33:37 2101
转载 Mac上MySQL报错:ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock'
解决办法:mysql.server start原文:https://segmentfault.com/q/1010000000094608
2019-02-07 13:48:16 219
转载 用homebrew安装radis之后连接显示Could not connect to Redis at 127.0.0.1:6379: Connection refused
Could not connect to Redis at 127.0.0.1:6379: Connection refused 安装完了之后使用命令brew services start redis然后再考虑配置文件的问题原文:https://blog.csdn.net/liu19910816/article/details/80614323 ...
2019-02-07 13:39:34 185
原创 Could not find a version that satisfies the requirement PIL
Python Imageing Library 简称 PIL,Python常用的图像处理库之一,Pillow是PIL一个fork.pip install PIL更换为:pip install pillow
2019-02-06 19:56:49 841
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人