- 运行的方法是通过cmd直接打该文件,需要注意cmd中操作路径的问题
- 此文件为爬页面URL的爬虫数据
import requests
from bs4 import BeautifulSoup
def get_info(url):
"""获得网页内容"""
r = requests.get(url)
return r.content
def parse_str(content):
"""解析结果为需要的内容"""
soup = BeautifulSoup(content, 'lxml')
infos = [v.find('a') for v in soup.find_all('li')]
r = []
for v in infos:
try:
r.append('\t'.join([v.text, v['href']]) )
except:
pass
return '\n'.join(r)
def load_rlt(rlt, filename):
"""将结果保存到文件里"""
with open(filename, 'w') as fw:
fw.write(rlt)
def main():
# url = input("请输入你要找的网址:")
url = 'http://hao.bigdata.ren/'
r = get_info(url)
rlt = parse_str(r)
load_rlt(rlt, 'bigdata.csv')
if __name__ == '__main__':
main()
print('finished!')
- 将文件保存为“pashuju.py"
- 将文件放在“D:\桌面文件\Python\爬虫数据”中
操作步骤如下:
- 在cmd powershell终端中,运行代码“cd D:\桌面文件\Python\爬虫数据”======按回车键
- 输入文件类型和文件名“python pashuju.py”======按回车键
在pashuju.py的目录下会生成“bigdata.csv”文件。
文件即为爬取数据内容。
此行为仅为学习使用,如有不妥立即删除。
如想实验复制文件打开即可。
打开时如果文件没有默认在C盘,需要输入“XX:”进入特定的盘中