python 爬虫
ALEX_KALI
这个作者很懒,什么都没留下…
展开
-
Python Scrapy框架的使用(一)
Scrapy 框架的使用一 Scrapy 框架的介绍1.架构介绍2.数据流3.项目结构目录介绍二 Scrapy 入门1.创建爬虫项目2.创建spider3.创建item4.解析页面5.使用item6.翻页7.运行8.保存到文件9.使用item pipelines10.全局配置一 Scrapy 框架的介绍1.架构介绍Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰, 榄块之 间的榈合程度低,可扩展性极强,可以灵活完成各种需求。 我们只需要定制原创 2020-09-05 16:27:53 · 443 阅读 · 0 评论 -
python xpath简单教程及xpath插件的安装
阅读目录一、 XPath简介1.1 什么是 XPath?1.2 lxml 库二、 XPath 语法2.1 选取节点2.2 XPath Axes(轴)三、chrome 插件 xpath 的下载安装,及简单使用一、 XPath简介1.1 什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准1.2 lxml 库lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和原创 2020-08-06 19:49:00 · 3291 阅读 · 0 评论 -
python 使用cookie和post方法模拟人人网登录
引入所需要的库import urllib2 #python2.7import urllib #为了对参数进行编码import cookielib准备登录地址和跳转地址url='http://www.renren.com/PLogin.do' #登录地址url1="http://www.renren.com/974783972/newsfeed/photo" #跳转地址创建cookielib实例cookie=cookielib.LWPCookieJar()cookie=urllib2.原创 2020-07-21 11:35:58 · 235 阅读 · 0 评论 -
Python 爬虫基础篇——urllib库的使用
爬虫常用的几种技巧1.基本方法#-*-coding:UTF-8-*-from urllib import requestresponse=request.urlopen("http://www.baidu.com/") #此处应该使用http#http获取数据时信息齐全,https获取数据的信息有缺失,在确定网络地址后,一般采用httpcontent=response.read().decode('utf-8')print(content)2.伪装成浏览器#-*-coding:UTF-8原创 2020-07-19 14:34:53 · 350 阅读 · 0 评论