Python网络爬虫

最新推荐文章于 2024-08-23 16:53:34 发布

Agly_Charlie

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量747

点赞数

分类专栏：爬虫正则表达式文章标签：网络爬虫 python 正则表达式

本文链接：https://blog.csdn.net/Agly_Clarlie/article/details/48734969

版权

本文介绍了Python网络爬虫的基本思路和正则表达式的应用。通过找到URL获取页面数据，然后利用正则表达式匹配所需内容，如通配符、特殊字符转义、字符集等，最后讨论了如何存储和处理爬取的数据。文中还详细讲解了Python的re模块及其常用方法。

摘要由CSDN通过智能技术生成

Python爬虫与正则表达式

文章目录

python爬虫

本文环境: python2.7
爬虫主要的思路是三个：

找到URL，也就是相当于入口，找到你要爬取的链接，获取整个页面数据
使用正则表达式，匹配到你想要爬取的内容，这里使用的主要是正则表达式和一些常用的开源库
最后一步就是写入文本以及存储问题了，如文本文件、数据库

第一步找到URL获取整个页面数据，下面实现爬取整个页面的数据

# coding:utf-8      	   #是用来指定文件编码为utf-8
from urllib import urlopen #导入rullib模板用urlopen函数的形式作接口
import  chardet            #导入chardet模板，编码识别模块。
import re    #导入re模板，通过re模块提供对正则表达式的支持
import urllib  #导入urllib模板，获取url
 	#这个链接是要爬取的网址，这里实现的是新浪新闻的爬取链接
    url = "http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=90&spec=&type=&ch=01&k=

最低0.47元/天解锁文章

Agly_Charlie

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫

Python爬虫的基本三步骤我刚开始接触爬虫时，我的老大是这样说的“网络爬虫就是一个自动提取网页的程序”爬虫主要的思路是三个： 1. 找到URL，也就是相当于入口，找到你要爬取的链接，获取整个页面数据 2. 使用正则表达式，匹配到你想要爬取的内容，这里使用的主要是正则表达式和一些常用的开源库 3. 最后一步就是写入文本以及存储问题了，如文本文件、数据库第一步找到URL获取整个页面数据，
复制链接

扫一扫

专栏目录