[01]Python爬虫
爬虫知识与实践
lrzbupt
这个作者很懒,什么都没留下…
展开
-
#12.1Python爬虫的进阶之路---百度贴吧漫画资源爬取
代码#coding:utf-8import osimport reimport requestsimport urllibimport jsonfrom bs4 import BeautifulSoup as BSclass urlmanager(object): def __init__(self): self.new_urls = set() self.old_urls = set() def add_new_urls(self, url原创 2020-05-20 10:43:43 · 204 阅读 · 0 评论 -
#14 Python爬虫的进阶之路---数据库介绍
SQL语法两个部分:数据定义语言(DDL)和数据操作语言(DML)前者用于创建或删除表格,定义索引,规定链接,施加约束后者用于增删改查SQL语法对大小写不敏感primary key关键词DISTINCT 加在 SELECT之后,用于合并重复值有条件查找用到where子句还可以使用and与or以及括号进行合并查找排序则需要用到ORDER BY语句,默认按照ASC升序,可以改为...原创 2020-05-14 17:18:46 · 234 阅读 · 0 评论 -
#14.1 MongoDB的安装与简单介绍
MongoDB的下载MongoDB官网提供了免费的下载地址:https://www.mongodb.com/download-center/community,但下载速度较慢若需要快速下载,可以使用以下链接:http://www.mongodb.org/dl/win32一般根据系统选择最新版的msi文件进行下载;官网一般会推荐适合的版本,点击download后进入下一个界面,不需要填任何东西,自动开始下载,但因连接网速问题可能会有延迟。Windows安装MongoDB与配置下载完成后,点击msi进原创 2020-05-13 16:15:36 · 119 阅读 · 0 评论 -
#12 Python爬虫的进阶之路---多媒体文件抽取,存储,邮件与爬虫基本构成
无数据库存储JSONpython利用json模块对json进行编码和解码编码使用函数dump和dumpsdump将python对象编码为json对象并存入fp指定文件;dumps将python对象生成字符串。dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None...原创 2020-05-06 11:40:31 · 310 阅读 · 0 评论 -
#11 Python爬虫的进阶之路---BeautifulSoup
Python包的镜像安装在使用pip或conda进行库安装时,由于使用海外服务器下载数据慢,我们可以选择使用国内的镜像站,本文以使用清华镜像源为例#临时使用镜像源pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package#将镜像源设为默认#首先升级pip到高于10.0.0版本pip install -i ht...原创 2020-04-09 17:36:23 · 166 阅读 · 0 评论 -
#10 Python爬虫的进阶之路---HTML解析正则表达式
元字符\b是一个常用的元字符,他代表一个位置,用于指示单词的开始或结束。如我们想要寻找we,忽略大小写我们可能匹配到we,We,Welcome等位置,而\bwe\b则限定了寻找we而不是一个单词中的一部分。如果我们想要匹配两个单词之间的所有字符呢?可以使用以下方法:\bwe\b.*\bus\b实现了匹配we与us之间的所有字符。其中.表示除换行符外的任意字符,*表示任意长度。举例:文本we...原创 2020-04-08 17:01:29 · 217 阅读 · 0 评论 -
#8:Python爬虫的进阶之路---HTTP
HTTP请求过程请求响应模型,客户端发起请求,服务器回应请求。无状态协议。同一客户端两次请求相互独立。一次HTTP操作称为一个事务,执行过程分四步:建立连接,如单击某个超链接客户端发送请求,请求格式:统一资源标识符(URL)、协议版本号、MIME信息(包括请求修饰符、客户机信息和可能的内容)服务器收到请求,给予响应信息,格式为一个状态行,包括信息协议版本号、一个成功或错误代码,MIM...原创 2020-03-31 18:36:20 · 122 阅读 · 0 评论 -
#7:Python爬虫的进阶之路---XPath与JSON
XPathXPath是一门在XML中查找信息的语言,用于XML和HTML中通过元素和属性进行导航。XPath节点XPath将XML文档视为节点树,包括七种类型节点:元素,属性,文本,命名空间,处理指令,注释,文档(根)节点。<?xml version="1.0" encoding="ISO-8859-1"?><classroom> <student&...原创 2020-03-31 10:22:01 · 195 阅读 · 0 评论 -
#6:Python爬虫的进阶之路---Web前端行为语言JavaScript
JavaScript的脚本可以利用以下两种方式被使用:1)直接利用<script type="text/JavaScript"></script>包裹后放入任何地方,不过一般常常放在head中;2)引用外部代码以减少多次使用时的代码量,<script src=".js"></script>基本语法区分大小写,在包括变量名在内的任何地方...原创 2020-03-31 08:54:36 · 128 阅读 · 0 评论 -
#5:Python爬虫的进阶之路----CSS
CSS指层叠样式表(Cascading Style Sheets),定义HTML元素的表现形式.一般有三种做法:1)内联,直接插入到HTML的标记中,直接使用style改变样式,如<body style="background-color:green;">2)嵌入式,将CSS信息写在<head></head>之间以<style type="text...原创 2020-03-26 16:35:47 · 348 阅读 · 0 评论 -
#4Python爬虫的进阶之路---Web前端与HTML
HTML结构表格属性<!DOCTYPE html><html lang="zh-CN"><head> <meta charset="UTF-8"> <title>Title</title></head><body> ...原创 2020-03-26 10:47:26 · 95 阅读 · 0 评论 -
#3Python爬虫的进阶之路----网络编程
TCP编程分为服务端与客户端;创建运行服务端需要五个步骤:1)创建socket并绑定到本地IP与端口;2)开始监听链接;3)进入循环,不断接受连接请求;4)接收传来的数据,并发送给对方数据;5)传输完毕后,关闭socket;# coding:utf-8import time, randomimport threadingimport socke...原创 2020-03-25 10:49:11 · 135 阅读 · 0 评论 -
#2:Python爬虫进阶之路---进程与线程
多进程os模块中的fork 仅适用于Unix/Linux系统; multiprocessing模块跨平台.多线程协程分布式进程原创 2020-03-23 17:40:59 · 129 阅读 · 0 评论 -
#1:Python爬虫进阶之路---文件与序列化
文件打开与关闭:f=open(r'文件路径','模式选择r/w/a/b/+') f.close()文件读取与写入:f.read() 一次性将文件读入内存f.read(size) 文件过大可指定字节大小依次读取...原创 2020-03-15 23:13:10 · 129 阅读 · 0 评论