首次在win环境上运行python爬虫文件~

最新推荐文章于 2022-07-05 22:03:44 发布

Haywardwang

最新推荐文章于 2022-07-05 22:03:44 发布

阅读量413

点赞数 1

分类专栏： python学习笔记文章标签： python

本文链接：https://blog.csdn.net/Haywardwang/article/details/106385223

版权

python学习笔记专栏收录该内容

17 篇文章 0 订阅

订阅专栏

运行的方法是通过cmd直接打该文件，需要注意cmd中操作路径的问题
此文件为爬页面URL的爬虫数据

import requests
from bs4 import BeautifulSoup


def get_info(url):
  """获得网页内容"""
  r = requests.get(url)
  return r.content


def parse_str(content):
  """解析结果为需要的内容"""
  soup = BeautifulSoup(content, 'lxml')
  infos = [v.find('a') for v in soup.find_all('li')]
  r = []
  for v in infos:
    try:
      r.append('\t'.join([v.text, v['href']]) )
    except:
      pass
  return '\n'.join(r)


def load_rlt(rlt, filename):
  """将结果保存到文件里"""
  with open(filename, 'w') as fw:
    fw.write(rlt)


def main():
    # url = input("请输入你要找的网址:")
    url = 'http://hao.bigdata.ren/'
    r = get_info(url)
    rlt = parse_str(r)
    load_rlt(rlt, 'bigdata.csv')


if __name__ == '__main__':
    main()
    print('finished!')