爬虫
HYS662020
这个作者很懒,什么都没留下…
展开
-
小何的爬虫笔记——bs4基础解析
import requests import re import bs4 from bs4 import BeautifulSoup # bs4进行数据解析 # 标签定位->提取标签中的数据 ''' 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 调用BeautifulSoup中的属性进行标签定位和数据提取 ''' # 1实例化对象:1将本地的html文档中的数据加载到对象中 2将互联网网页源码加载到对象中 # 将本地的html加载到对象中 # fp=open(原创 2020-11-11 21:56:36 · 150 阅读 · 0 评论 -
小何的爬虫笔记——xpath
xpath解析 ''' 最常用最便捷搞笑的一种解析方式,通用性、 -xpath解析原理 -实例化etree对象,并且需要将被解析的页面源码 数据加载到对象中 -调用etree对象中的xpath结合着xpath表达式实现标签的定位和内容的捕获 ''' # 如何实例化etree对象 # -将本地的html文档中源码数据加载到etree中: # etree.parase(filepath) # -可以将互联网上的源码数据加载到该对象中 # etr原创 2020-11-11 21:55:28 · 172 阅读 · 0 评论 -
小何的爬虫笔记——数据解析
"""" 聚焦爬虫:爬取页面中指定的页面内容 -编码流程 1.指定url 2.发起请求 3.获取响应数据 4。将响应数据进行持久化存储 数据解析分类: -正则 -bs4 -xpath(***) 数据解析原理: -解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储原创 2020-11-11 21:52:48 · 154 阅读 · 0 评论 -
小何的爬虫笔记
import requests # 使用方法\ request的编码流程 # 指定url # 发起请求 # 获取相应数据 # 持久化存储 # unit1 url1='https://www.sogou.com/' data=requests.get(url=url1) result1=data.text print(len(result1)) # unit2 url2='https://www.sogou.com/web?' # 处理url携带的参数:封装到字典 # UA伪装 headers原创 2020-11-11 21:51:13 · 143 阅读 · 0 评论 -
小何~初次认识PIL
小何~初次认识PIL # 初识PIL from PIL import Image from PIL import ImageFilter # 打开第一张图片 img_file=Image.open('D:\新建文件夹\爬虫\picLibs\ 刘奕宁Lynn 性感内衣 比基尼 4K美女桌面壁纸.jpg') #转型图画模式 img_file=img_file.convert('1') #改变图片大小 img_file=Image.open('D:\新建文件夹\爬虫\picLibs\ 刘奕宁Lynn 性感内衣 比原创 2020-11-11 21:44:05 · 117 阅读 · 0 评论