首次在win环境上运行python爬虫文件~

  • 运行的方法是通过cmd直接打该文件,需要注意cmd中操作路径的问题
  • 此文件为爬页面URL的爬虫数据
import requests
from bs4 import BeautifulSoup


def get_info(url):
  """获得网页内容"""
  r = requests.get(url)
  return r.content


def parse_str(content):
  """解析结果为需要的内容"""
  soup = BeautifulSoup(content, 'lxml')
  infos = [v.find('a') for v in soup.find_all('li')]
  r = []
  for v in infos:
    try:
      r.append('\t'.join([v.text, v['href']]) )
    except:
      pass
  return '\n'.join(r)


def load_rlt(rlt, filename):
  """将结果保存到文件里"""
  with open(filename, 'w') as fw:
    fw.write(rlt)


def main():
    # url = input("请输入你要找的网址:")
    url = 'http://hao.bigdata.ren/'
    r = get_info(url)
    rlt = parse_str(r)
    load_rlt(rlt, 'bigdata.csv')


if __name__ == '__main__':
    main()
    print('finished!')
  • 将文件保存为“pashuju.py"
  • 将文件放在“D:\桌面文件\Python\爬虫数据”中

操作步骤如下:

  • 在cmd powershell终端中,运行代码“cd D:\桌面文件\Python\爬虫数据”======按回车键
  • 输入文件类型和文件名“python pashuju.py”======按回车键
    在这里插入图片描述

在pashuju.py的目录下会生成“bigdata.csv”文件。

文件即为爬取数据内容。
在这里插入图片描述

此行为仅为学习使用,如有不妥立即删除。

如想实验复制文件打开即可。

打开时如果文件没有默认在C盘,需要输入“XX:”进入特定的盘中
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值