Python-爬虫
浩然丶
大道无形
展开
-
Python爬虫学习(八)Scrapy爬虫基本流程
(八)Scrapy爬虫基本流程(1)步骤1建立工程和Spider模板建立工程>scrapy startproject project_name打开工程文件夹>cd project_name建立Spider模板>scrapy genspider spider_name crawl_website(2)步骤2编写Spider配置spider_n...原创 2020-04-23 14:48:26 · 274 阅读 · 0 评论 -
Scrapy爬虫框架初探
(七)Scrapy爬虫的基本使用(1)Scrapy爬虫的使用步骤步骤1:创建一个工程和Spider模板步骤2:编写Spider步骤3:编写Item Pipeline步骤4:优化配置策略(2)Scrapy爬虫的数据类型1.Request类class scrapy.http.Request()#Requests对象表示一个HTTP请求#由Spider生成,由Downloader执行...原创 2020-04-23 11:11:15 · 190 阅读 · 0 评论 -
Python爬虫学习(七)Scrapy爬虫框架详解
(六)Scrapy爬虫框架(1)Scrapy爬虫框架结构Scrapy不是一个函数功能库,而是一个爬虫框架爬虫框架是实现爬虫功能的一个软件结构和功能组件集合爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫看结构:分布式、“5+2”结构看流程:数据流1.数据流的路径Engine从Spider处获得爬取请求(Request)Engine将爬取请求转发给Scheduler,...原创 2020-04-23 09:00:00 · 231 阅读 · 0 评论 -
基于bs4库和re库的天天基金网python爬虫
花了一晚上的时间调试,练习,终于把这个程序改动好了通过这个更熟悉了BeautifulSoup库的用法,也练习了正则表达式的使用import requestsfrom bs4 import BeautifulSoupimport bs4import tracebackimport redef getHTMLText(url, code="utf-8"): try: ...原创 2020-04-22 22:51:34 · 465 阅读 · 0 评论 -
基于requests库和re库的淘宝商品网络爬虫
用python爬取淘宝网指定商品资料/仅学习算法实现用import requestsimport redef getHTMLText(url): try: Headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li...原创 2020-04-22 19:06:57 · 168 阅读 · 0 评论 -
Python爬虫学习(六)Re正则表示式库的入门
(六)Re(正则表达式)库入门(1)基本定义 正则表达式 regular expression, regex, RE 正则表达式是用来简洁表达一组字符串的表达式 正则表达式是一种针对字符串表达“简洁”和“特征”的思想的工具 正则表达式可以用来判断某字符串的特征归属(2)作用 表达文本类型的特征(病毒、入侵等) 同时查找或替换一组字符串 匹配字符串的全部或部分(最主要的应用)...原创 2020-04-22 14:31:49 · 152 阅读 · 0 评论 -
基于requests库和BeautifulSoup库的大学排名网络爬虫
用requests库和BeautifulSoup库爬取“最好大学网”中的大学排名信息。代码如下:import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: Headers = { 'User-Agent': 'Mozilla/5.0...原创 2020-04-21 15:13:20 · 338 阅读 · 0 评论 -
Python爬虫学习(五)基于bs4库的HTML内容检索
(五)基于bs4库的HTML内容检索(1)信息的标记 标记后的信息可形成信息组织结构,增加了信息维度 标记的结构和信息一样具有重要价值 标记后的信息可用于通信、存储或展示 标记后的信息更利于程序理解和运用例:HTML是WWW(World Wide Web)的信息组织方式 HTML通过预定义的<>…</>标签形式组织不同类型的信息(...原创 2020-04-20 14:55:04 · 267 阅读 · 0 评论 -
Python爬虫学习(四)Beautiful Soup库入门
(四)Beautiful Soup库入门BeautifulSoup库官方文档(1) Beautiful Soup库基本元素 Beautiful Soup库是解析、遍历、维护“标签树”的功能库<p class="title">...</p><p>..</p> :标签 Tag p :名称 Name (成对出现)class='ti...原创 2020-04-14 19:22:10 · 262 阅读 · 1 评论 -
Python爬虫学习(二)盗亦有道(三)Requests库网络爬取实战
(二)网络爬虫的盗亦有道(1)网络爬虫的限制 来源审查:检查来访HTTP协议头的User-Agent域 发布公告:Robots协议 —— 网站根目录下的robots.txt文件(三)Requests库网络爬取实战(1)京东商品页面的爬取import requestsdef getHTMLText(url): try: Headers = { ...原创 2020-04-13 15:24:44 · 248 阅读 · 0 评论 -
Python爬虫学习(一)Requests库入门
(一)Requests库入门(1)HTTP协议#HTTP 超文本传输协议#HTTP是一种基于“请求与响应”模式的、无状态的应用层协议#HTTP采用URL作为定位网络资源的标识,一个URL对应一个数据资源-------------------------------http://host[:post][path]host:合法的Internet主机域名或IP地址port:端口号,缺省...原创 2020-04-13 15:22:29 · 252 阅读 · 2 评论