爬虫理论

什么是爬虫:
   通过编写程序,模拟浏览器上网,让其去互联网上获取数据的过程 

  反爬机制:      网站可以采取相关的技术手段或者策略阻止爬虫程序进行网站数据的爬取

  反爬策略:  让爬虫程序通过破击反爬机制获取数据

爬虫的分类:
 - 通用爬虫:获取一整张页面数据
 - 聚焦爬虫:根据指定的需求获取页面中指定的局部数据
 - 增量式爬虫:用来监测网站数据更新的情况。爬取网站最新更新出来的数据

 

- robots协议:防君子不妨小人

- http协议:client和Server进行数据交互的形式(超文本传输协议)  

  - https:安全的http协议
    - 对称秘钥加密
    - 非对称秘钥加密
    - 证书秘钥加密

 

使用到的请求头或相应头的信息:
   - User-Agent:请求载体的身份标识(浏览器)

   - Connection:'close'

   - content-type

 

爬虫程序步骤

  1指定url,和请求头

    headers={
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3521.2 Safari/537.36"
 }

    url = 'https://www.sogou.com/'


  2.发起请求

  (get方法,传递参数是params) 
    response = requests.get(url=url,params=params,headers=headers)

   (post方法,传递参数是data)
    response = requests.post(url=url,data=data,headers=headers))

  3.获取响应数据
    page_text = response.text #text返回的是字符串类型的数据
  4.持久化存储
    with open('./sogou.html','w',encoding='utf-8') as f:
    f.write(page_text)
    print('over!')

爬取药监局的所有企业的详细信息

import requests

url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
headers={
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3521.2 Safari/537.36"
    }

for i in range(1,51):
    data = {
    'on': 'true',
    'page': i,
    'pageSize': 15,
    'productName': '',
    'conditionType': 1,
    'applyname': '',
    'applysn': ''
    }

    response = requests.post(url=url,data=data,headers=headers)
    text = response.json()

    print('第{}页内容'.format(i))
    for t in text['list']:
        url1 = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
        data1={'id': t['ID']}
        res = requests.post(url=url1,data=data1,headers=headers)
        json_text = res.json()
        print('企业名称:',json_text['epsName'],' 企业地址:',json_text['epsAddress'])

  

 

转载于:https://www.cnblogs.com/gyc-tzx/p/10932522.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值