【Scrapy实战】0206笔记——正则表达式，环境配置

最新推荐文章于 2024-04-15 19:12:02 发布

lucahan

最新推荐文章于 2024-04-15 19:12:02 发布

阅读量584

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/lucahan/article/details/79274060

版权

scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

爬虫基础知识

一、技术选型：scrapy

Scrapy是框架，已经加入了request和beautifulsoup，性能很高。

二、正则表达式

import re

line = "luca123"

"""
^l:代表以l开头
.:代表任意字符
*:代表前面的字符重复任意多次
^l.*:以l字母为开头，后面的字符出现任意多次
"""
regex_str = "^a.*"
if re.match(regex_str, line):
    print('yes')
else:
    print('no')

3$:$是指结尾，3$指必须要以3来结尾

regex_str = "^l.*3$"
if re.match(regex_str, line):
    print('yes')
else:
    print('no')

?:非贪婪匹配，从左边开始，遇到第一需要的字符

{2}：限定前面的字符出现的次数，2次
{2，}：出现2次以上
{2,5}：出现2次到5次

|：实际上就是或关系

[]:[abcd]，[0-9]中的任何字母，数字，字符都可以都可以

\s:空格
\S:只要不是空格都可以

\w:任意字符（满足数字，字母，下划线）
\W:非任意字符（满足数字，字母，下划线）

[\u4E00-\u9FA5]:提取中文

三、不同python环境安装虚拟环境

1.mkvirtualenv --python=E:\Python35\python.exe env_scrapy
2.pip install -i https://pypi.douban.com/simple/ scrapy
3.https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应确实的版本lxml，twisted
4.选择正确的版本：Twisted-17.9.0-cp35-cp35m-win_amd64.whl，cp35表示对应的python3.5版本

5.新建scrapy项目：

        1）在虚拟环境下，进入安装目录(env_scrapy) E:\project\python>

        2）scrapy startproject Spider

lucahan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录