1.正则表达式
学习了简单的正则表达式使用。通过这个书发现,实际爬虫过程中,用正则表达式去匹配内容,并不是非常常用。
xpath更好用一点。
2.简单网页爬虫开发
2.1 用python获取网页源码
request库
2.2 多线程编码的例子
import re
import requests
import os
from multiprocessing.dummy import Pool
def get_toc(html):
toc_url_list = []
toc_block = re.findall("正文(.*?)", html, re.S)[0] # re.S作用是忽略换行符
toc_url = re.findall("href="(.*?)"", toc_block, re.S)
for url in toc_url:
toc_url_list.append(start_url + url)
return toc_url_list
def get_article(html):
chapter_name = re.search("size="4">(.*?)<", html, re.S).group(1) # group里面的1,代表第一个括号匹配的内容
text_block = re.search("
(.*?)
", html, re.S).group(1)text_block = text_block.replace("
", " ")
return chapter_name, text_block