爬虫
tyson Lee
坚持就是胜利
展开
-
beautifulsoup4教程(一)基础知识和第一个爬虫
一、基础知识1.BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。2.Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经...原创 2019-02-02 12:31:09 · 8464 阅读 · 2 评论 -
beautifulsoup4教程(二)bs4中四大对象
三、四大对象种类Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:TagNavigableStringBeautifulSoupComment3.1 Tag 标签#-*-coding:utf-8-*-from bs4 import BeautifulSouphtml = """<html>...原创 2019-02-02 12:31:43 · 7398 阅读 · 0 评论 -
beautifulsoup4教程(三)遍历和搜索文档树
四、遍历文档树4.1 直接子节点.contentstag 对象的.contents属性可以将某个tag的子节点以列表的方式输出,当然列表会允许用索引的方式来获取列表中的元素。#-*-coding:utf-8-*-from bs4 import BeautifulSouphtml = """<html><head><titl原创 2019-02-02 12:32:13 · 7215 阅读 · 1 评论 -
beautifulsoup4教程(四)css选择器
六、CSS选择器6.1 通过标签名查找print soup.select('title')print soup.select('a')print soup.select('b')result:[<title>The Dormouse's story</title>][<a class="sister" href="http://e原创 2019-02-02 12:32:39 · 3410 阅读 · 0 评论 -
爬虫实战:规范化流程爬取新浪新闻
一、基础知识1.1 需要用到的框架1.2 整个流程踩点(通过Chorme的开发者工具中的Network选项卡去寻找自己需要的标签或者请求是哪一个),通常我们需要的往往是请求的DOC、JS这两个。1.3 其他基础知识我们在网站中看到的数据是非结构化数据:只有将非结构化数据进行一定的处理才能变成结构化数据:数据抽取(需要用到的框架:re、Requests、BeautifulS...原创 2019-02-03 16:25:49 · 3024 阅读 · 1 评论 -
基于docker和微信平台的QG项目效果图
原创 2019-02-25 01:06:50 · 425 阅读 · 2 评论