Network Crawler
步步星愿
狭路相逢勇者胜
展开
-
Python解析库(一):使用XPath
XPath最初是用来搜寻XML文档的,但是同样可以用来解析HTML文档 1、XPah的常用规则:表达式 描述nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 ...原创 2018-07-29 13:40:38 · 1237 阅读 · 0 评论 -
爬虫实战(一)利用python爬取猫眼电影Top前100
代码详解 1#爬虫库 2import requests 3#json数据格式库 4import json 5#requests异常 6from requests.exceptions import RequestException 7#正则表达式 8import re 9#延迟函数10import time1112#定义一个读取一个url并返回相应信息的函数13...原创 2018-07-26 16:55:11 · 5510 阅读 · 1 评论 -
爬虫实战(二):爬取糗事百科段子
源代码为:from urllib.request import Request, urlopenimport requestsimport reimport timedef getHtml(url): headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) Apple...原创 2018-07-27 09:35:47 · 266 阅读 · 0 评论