爬虫
NO23412号菜狗
这个作者很懒,什么都没留下…
展开
-
一个简单的爬虫 头部构造
# -*- coding:utf-8 -*-import urllib.requestimport randomua_headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',}head_list=[ "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko.原创 2020-11-22 12:18:04 · 809 阅读 · 1 评论 -
python 简单爬虫(一)
from urllib.request import urlopenimport rehtml=urlopen( "https://morvanzhou.github.io/static/scraping/basic-structure.html").read().decode('utf-8')print(html)res=re.findall(r'<title>...原创 2019-11-10 10:16:06 · 87 阅读 · 0 评论 -
有用的XPath表达式
$x('//p')$x('//a')$x('//div//a')$x('//a/@href')$x('//a/text()')第一个 选择所有元素第二个 选择所有链接第三个 访问链接中的href第五个 文本$x('//div/*')访问所有元素$x('//a[contains(@href,"iana")]')$x('//a[starts-with(@hr...原创 2019-11-03 18:08:31 · 139 阅读 · 0 评论