爬虫小白抓取实战

接触爬虫差不多一个月,上班时候看视频学习,学了大概五六十个小时样子,代码写的烂,希望别见怪。后期继续努力,以下是我抓取网易云音乐
在这里插入图片描述
抓取的页面
https://music.163.com/#/discover/artist/cat?id=4003&initial=0

import urllib.request
import random
from lxml import etree
from openpyxl import workbook,load_workbook
head =['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0',
           'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50',
           'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50']

def get_head(head):  #伪装浏览器
    tou = random.choice(head)
    url_head = ('User-Agent', tou)
    openner = urllib.request.build_opener()
    openner.addheaders=[url_head]
    urllib.request.install_opener(openner) #全局变量

def getlink(url):
    get_head(head)
    data = urllib.request.urlopen(url).read().decode()
    texy = etree.HTML(data)
    aa = texy.xpath('//a[@class="nm nm-icn f-thide s-fc0"]/@href')
   # print(aa)  #元素带有空格
    shankong=[]
    for i in aa: #这个for是删除列表里面空格
        i=i.strip()
        shankong.append(i)
    hechengdizhi = [url] #这里把地址添加上是为了方便写入到execl表格,可以看图
    for h in shankong: #合成地址
        xianglink = 'https://music.163.com'+h
        hechengdizhi
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值