python 爬虫_ALEX_KALI的博客-CSDN博客

python 爬虫

关注

关注数：文章数：4 文章阅读量：4319 文章收藏量：9

作者: ALEX_KALI

这个作者很懒，什么都没留下…

展开

Python Scrapy框架的使用（一）

Scrapy 框架的使用一 Scrapy 框架的介绍1.架构介绍2.数据流3.项目结构目录介绍二 Scrapy 入门1.创建爬虫项目2.创建spider3.创建item4.解析页面5.使用item6.翻页7.运行8.保存到文件9.使用item pipelines10.全局配置一 Scrapy 框架的介绍1.架构介绍Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，榄块之间的榈合程度低，可扩展性极强，可以灵活完成各种需求。我们只需要定制

原创 2020-09-05 16:27:53 · 443 阅读 · 0 评论
python xpath简单教程及xpath插件的安装

阅读目录一、 XPath简介1.1 什么是 XPath?1.2 lxml 库二、 XPath 语法2.1 选取节点2.2 XPath Axes（轴）三、chrome 插件 xpath 的下载安装，及简单使用一、 XPath简介1.1 什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准1.2 lxml 库lxml 是一个HTML/XML的解析器，主要的功能是如何解析和

原创 2020-08-06 19:49:00 · 3291 阅读 · 0 评论
python 使用cookie和post方法模拟人人网登录

引入所需要的库import urllib2 #python2.7import urllib #为了对参数进行编码import cookielib准备登录地址和跳转地址url='http://www.renren.com/PLogin.do' #登录地址url1="http://www.renren.com/974783972/newsfeed/photo" #跳转地址创建cookielib实例cookie=cookielib.LWPCookieJar()cookie=urllib2.

原创 2020-07-21 11:35:58 · 235 阅读 · 0 评论
Python 爬虫基础篇——urllib库的使用

爬虫常用的几种技巧1.基本方法#-*-coding:UTF-8-*-from urllib import requestresponse=request.urlopen("http://www.baidu.com/") #此处应该使用http#http获取数据时信息齐全，https获取数据的信息有缺失，在确定网络地址后，一般采用httpcontent=response.read().decode('utf-8')print(content)2.伪装成浏览器#-*-coding:UTF-8

原创 2020-07-19 14:34:53 · 350 阅读 · 0 评论

python 爬虫

作者: ALEX_KALI

Python Scrapy框架的使用（一）

python xpath简单教程及xpath插件的安装

python 使用cookie和post方法模拟人人网登录

Python 爬虫基础篇——urllib库的使用