丁大喵-CSDN博客

原创爬虫之网页解析——正则表达式、BeautifulSoup、xpath

解析内容得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。正则表达式处理 def get_zhushi_info(url): #urls='https://so.gushiwen.org/shiwen2017/ajaxshiwencont.aspx?id=45c396367...

2019-06-21 13:54:26 940

原创爬虫之爬取古诗文网站

import pandas as pd import urllib.parse import urllib.request from lxml import etree import requests import re import time import os import random def get_zhushi_info(url): #urls='https://so.gu...

2019-06-21 13:48:51 1099

原创爬虫篇之IP被限制的方法

第一篇技术博客，记录自己渣渣的coding。在互联网公司的实习中，发现有些工作会相互重叠，但每写一次代码，都要重新百度一次，时间效率低下，记录在博客日后好温故而知新。维护自己的IP池，并验证此IP能不能用，保存到csv文件当中。缺点：由于爬取的是西刺代理IP，每个IP时间有限，很容易过期。 import requests import re import time import ...

2019-06-21 12:05:48 2563