scrapy-爬虫学习笔记

最新推荐文章于 2023-04-27 22:47:54 发布

亲亲小朱儿

最新推荐文章于 2023-04-27 22:47:54 发布

阅读量222

点赞数

分类专栏：爬虫-python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012562302/article/details/81050352

版权

爬虫-python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.安装scrapy

pip install -i 源 scrapy

2.手动创建scarpy项目

scrapy startproject 项目名称

3.scrapy genspider jobbole blog.jobbole.com（使用自带模板）

4.调试

修改setting文件中obey robots为flase

新建py文件

在命令窗口中输入

5.提取内容（有多种方法）

xpath使用路径表达式在xml和html中定航

页面分析内容时，注意页面加载后F12下获取元素的xpath和直接获取源码的xpath可能不一样，因为页面动态加载js后可能会生成新的页面布局。

css选择器
beatufulsoup

6.shell调试

scrapy shell 网址

extract() 提取内容，返回一个数组
stripe() 去掉换行符
正则表达式中，group()用来提出分组截获的字符串，（）用来分组
tags = ",".join(list) python将数组用","拼接成字符串

亲亲小朱儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy-爬虫学习笔记

1.安装scrapypip install -i 源 scrapy2.手动创建scarpy项目scrapy startproject 项目名称3.scrapy genspider jobbole blog.jobbole.com（使用自带模板）4.调试修改setting文件中obey robots为flase新建py文件在命令窗口中输入5.提取内容（有多种方法）xpath使用路径表达式在xml和h...
复制链接

扫一扫

专栏目录

亲亲小朱儿

博客等级

码龄11年

25
原创

16
点赞

44
收藏

6
粉丝

关注

私信

热门文章

分类专栏

Qt for andriod 2篇
php 3篇
div+css
JS 1篇
ajax 1篇
wamp 1篇
前后端交互 2篇
大数据-storm 1篇
spark&spark
spark&sparkstreaming 1篇
其他 2篇
matlab 1篇
POSTGist 1篇
java-
java-日记 1篇
hdfs 1篇
python 4篇
爬虫-python 4篇
机器学习 2篇

最新评论

SVM 处理高维小样本数据
oo_土豆土豆: 可以烦请博主把原始数据提供一下么？感谢~
MatLab mapping toolbox的简单使用
SHILOKI: https://me.bdp.cn/index.html#/dash_edit/proj_2d3f1d85a85ed0793448ae91a2c2f061/dsh_8354a5898c2468d6c314a7b02d0f521c 这个可以画热力，查查
MatLab mapping toolbox的简单使用
青瞳Bronze: 同问
MatLab mapping toolbox的简单使用
海绵姥姥: 想画点该怎么办我想画热度图找帮助连画点都找不到只能画线
SVM 处理高维小样本数据
qq_38291995: 您好能看下您代码用到的数据集吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。