网络爬虫
JingleLee123
Be stupid,be hungry.
展开
-
分布式爬虫
分布式概念 Python执行环境大部分依赖于GIL,而GIL限制了多线程的功能。Pyhton代码可以通过CPython、PyPy、Psyco等不同的Python执行环境来执行,其中JPython就没有GIL。所以,GIL并不是Python的特性,Python完全可以不依赖于GIL。为什么会有GIL 由于物理上的限制,各个CPU厂商在核心频率上的比赛已经被多核所取代。为了更有效地利用多核处...原创 2019-12-28 00:26:49 · 249 阅读 · 0 评论 -
数据清洗
字符串操作清洗数据有三种常用的方法:字符串操作、正则表达式和第三方模块库。用于清洗数据的字符串操作:截取、替换、查找和分割。#1. 截取:字符串[开始位置:结束位置:间隔位置]#默认从0开始,空值默认取到字符串尾部。间隔位置默认为1str = 'ABCDEFG'#间隔为负数,开始位置为最后一个,结束位置到字符串首部print('与原字符串顺序相反的字符串:' + str[::-1])...原创 2019-12-27 11:09:17 · 8548 阅读 · 0 评论 -
爬取酷狗TOP500的数据
题目和代码 爬取https://www.kugou.com/yy/rank/home/1-8888.html?from=rank 排名情况、歌手、歌曲名和歌曲时间。import requestsfrom bs4 import BeautifulSoupimport timeimport pandas as pddef get_links(): links_list = []...原创 2019-12-10 11:23:13 · 1466 阅读 · 1 评论 -
爬取北京地区短租房信息
题目爬取http://bj.xiaozhu.com/ 中北京地区短租房13页的信息(标题、地址、价格、房东名称、房东性别和房东头像的链接)。注意:这个小猪网址,第一次打开需要验证,所以先在浏览器上打开这个网页,完成验证后,再运行代码,以及多次爬取后,可能需要再次打开网页进行验证。codeimport requestsfrom bs4 import BeautifulSoupimpo...原创 2019-12-10 00:35:01 · 489 阅读 · 0 评论 -
Requests数据爬取
Requests简介及安装 与Urllilb对比,Requests是在Urllib的基础上进一步封装的,具备Urllib的全部功能;在开发使用上,语法简单易懂,完全符合Python优雅、简介的特性;在兼容性上,完全兼容Python2和Python3,具有较强的适用性。 Requests可通过pip安装:Windows 系统:pip install requestsLinux 系统:s...原创 2019-12-09 15:26:01 · 1286 阅读 · 1 评论 -
Urllib数据抓取
Urllib简介Urllib是Python自带的标准库,无须安装,直接引用即可。Url通常用于爬虫开发、API数据获取和测试。在Python3中,Urllib模块是一堆可以处理URL的组件集合,就是将Urllib和Urllib2合并在一起使用,并且命名为Urllib.urllib.request: 用于打开和读取URLurlib.error: 包含提出的例外urllib.request...原创 2019-12-05 21:45:28 · 193 阅读 · 0 评论 -
爬虫开发基础
HTTP与HTTPS HTTP是一个客户端和服务器端请求和应答的标准(TCP)。通过使用Web浏览器、网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。这个客户端叫用户代理(UserAgent)。响应的服务器上存储着资源,比如HTML文件和图像,这个服务器为源服务器(Origin Server),在用户代理和服务器中间可能存在多个中间层,比如代理、网关或者...原创 2019-11-27 12:25:02 · 174 阅读 · 0 评论 -
理解网络爬虫
文章目录爬虫的定义爬虫的类型爬虫的原理通用网络爬虫的实现原理聚焦网络爬虫的实现原理爬虫的搜索策略深度优先搜索宽度优先搜索最佳优先搜索反爬虫技术及解决方案爬虫的定义网络爬虫时一种按照一定的规则自动地抓取网络信息的程序或者脚本。爬虫的类型通用网络爬虫:又称为全网爬虫,常见的有百度、Google、必应等搜索引擎。聚焦网络爬虫:又称为主题网络爬虫,是选择性地爬行根据需求的主题相关页面的网络爬虫...原创 2019-10-21 13:57:37 · 1298 阅读 · 1 评论 -
网络爬虫笔记3-相关库以及登录问题
Requests发送请求,传递URL参数,读取响应内容(文本/二进制/Json),定制请求头部,Post请求,响应状态码,重定向和历史,超时…import jsonimport requestsfrom PIL import Imagefrom io import BytesIO# print(dir(requests))url = "http://www.baidu.com...原创 2018-07-28 14:07:10 · 548 阅读 · 0 评论 -
网络爬虫学习笔记2
CSScss = Cascading Style Sheets样式定义如何显示HTML元素选择器: eg: h1{color: red; font-size: 14px} 元素选择器: 直接选择文档元素。类选择器: 元素的class属性,eg: < h1 class=”important”>.important选择所有有这个类属性的元素结合元素选择器,比如p.imp...原创 2018-07-24 19:14:08 · 248 阅读 · 0 评论 -
网络爬虫基础1
HTTPHTTP = HyperText Transfer Protocol URI = Uniform Resource Identifier URL = Uniform Resource Locator - URI和URL的区别:URI强调的是资源,而URL强调的是资源的位置。常用请求类型OPTIONS: 返回服务器针对特定资源所支持的http请求方法。HEAD: 向...原创 2018-07-23 12:36:49 · 245 阅读 · 0 评论