爬虫基础知识
一、技术选型:scrapy
Scrapy是框架,已经加入了request和beautifulsoup,性能很高。
二、正则表达式
1.
import re
line = "luca123"
""" ^l:代表以l开头 .:代表任意字符 *:代表前面的字符重复任意多次 ^l.*:以l字母为开头,后面的字符出现任意多次 """ regex_str = "^a.*" if re.match(regex_str, line): print('yes') else: print('no')
2.
3$:$是指结尾,3$指必须要以3来结尾
regex_str = "^l.*3$" if re.match(regex_str, line): print('yes') else: print('no')
3.
?:非贪婪匹配,从左边开始,遇到第一需要的字符
4.
{2}:限定前面的字符出现的次数,2次 {2,}:出现2次以上 {2,5}:出现2次到5次
5.
|:实际上就是或关系
6.
[]:[abcd],[0-9]中的任何字母,数字,字符都可以都可以
7.
\s:空格 \S:只要不是空格都可以
8.
\w:任意字符(满足数字,字母,下划线) \W:非任意字符(满足数字,字母,下划线)
9.
[\u4E00-\u9FA5]:提取中文
三、不同python环境安装虚拟环境
1.mkvirtualenv --python=E:\Python35\python.exe env_scrapy 2.pip install -i https://pypi.douban.com/simple/ scrapy 3.https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应确实的版本lxml,twisted 4.选择正确的版本:Twisted-17.9.0-cp35-cp35m-win_amd64.whl,cp35表示对应的python3.5版本
5.新建scrapy项目:
1)在虚拟环境下,进入安装目录(env_scrapy) E:\project\python>
2)scrapy startproject Spider