python-淘宝信息定向爬取

S是类似产品页数  bcoffset直流偏移。

有人在将偏移量:http://www.cnblogs.com/defineconst/p/6185396.html

item.taobao.com/item.htm?参数。常见参数如下
&spm  流量来源
&id 淘宝id
&ali_trackid 阿里妈妈id
&ali_refid

--------官方解析文档-----------

淘宝开放平台 - 文档中心
http://open.taobao.com/docs/doc.htm?articleId=959&docType=1&treeId=null

-----for instance----

SPM编码:用来跟踪页面模块位置的编码,标准spm编码由4段组成,采用a.b.c.d的格式(建议全部使用数字),其中,

  • a代表站点类型,对于xTao合作伙伴(外站),a为固定值,a=2014
  • b代表外站ID(即外站所使用的TOP appkey),比如您的站点使用的TOP appkey=123456789,则b=123456789
  • c代表b站点上的频道ID,比如是外站某个团购频道,某个逛街频道,某个试用频道 等
  • d代表c频道上的页面ID,比如是某个团购详情页,某个宝贝详情页,某个试用详情页 等

-淘宝课程不错哎╮( ̄▽ ̄")╭---

开放平台学院
http://xue.open.taobao.com/video/list.htm?spm=a219a.8199539.2232181.2.nD4HG7

-------------------------------

 改日再测,,,网速渣。。。

原文:淘宝网有哪些鲜为人知的使用技巧
http://www.zhifuwang.cn/news/zhaoshangzhengce/79293.html

操作链接:
http://www.alimama.com/index.htm?spm=a2320.7874452.a31ci.1.LD83zb

扫码登录账号-》营销平台-》 淘宝客

-------------------------------------------------------

目标软件:

网络信息采集大师
http://www.onlinedown.net/soft/39355.htm

NetGet
http://www.jb51.net/softs/237543.html

-----------------------------------

Q:

1去掉一些无用的参数不会影响最终到达的网页

--------------

2.

通过对象属性不明觉厉

 

>>> class website:
def __init__(self,name,type):
self.name,self.type = name,type
def __str__(self):
return 'Website name: {self.name}, Website type: {self.type} '.format(self=self)
>>> print (str(website('pythontab', 'python')))
Website name: pythontab.com, Website type: python
>>> print website('pythontab', 'python')
Website name: pythontab, Website type: python

 

 全文参考python强大的字符串格式化函数 (为什么要折一下啊,为什么呢,不然不给通过啊)

http://www.pytho

ntab.com/html/2016/pythonjichu_0722/1049.html

 

PyFormat: Using % and .format() for great good!
https://pyformat.info/

 

 

-----------------re--

Python3 正则表达式 | 菜鸟教程:
http://www.runoob.com/python3/python3-reg-expressions.html

pythonsplit 切片规则:

http://www.runoob.com/python/att-string-split.html

 

实例

以下实例展示了split()函数的使用方法:

#!/usr/bin/python

str = "Line1-abcdef \nLine2-abc \nLine4-abcd"; print str.split( ); print str.split(' ', 1 );

以上实例输出结果如下:

['Line1-abcdef', 'Line2-abc', 'Line4-abcd'] ['Line1-abcdef', '\nLine2-abc \nLine4-abcd']




----找错版------------

# -*- coding: utf-8 -*-
"""
Created on Mon Apr 3 23:51:17 2017

@author: Administrator
"""

import requests
import re

def getHtmlText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def parseHtml(html):
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"'.split(':')[1])
tlt = re.findall(r'\"raw_title\"\:\".*?\"'.split(':')[1])
for i in len(plt):
ulist.append([plt[i],tlt[i]])

def printHtml(html,list):
flt = "{:10}\t{:10}\t{:10}"
count = 0
for g in list:
count = count +1
print(flt.format("序号","价格","商品名称"))
print(count,ulist.plt[i],ulist.tlt[i])

 

def main():
goods="商品"
depth = 2
start_url = "http://s.taobao.com/search?q="+ goods
ulist = []
r = getHtmlText(url)
for i in depth:
url = start_url + '&s=' + str( 44 * i)
parseHtml(url)
printHtml(html,ulist)

main()

-------最后一遍显然还是有毛病----1.渣速只有晚上跑得动 2.明明是书包,却跑出了屎3.以后再解决吧,毕竟无能为力--------

 

# -*- coding: utf-8 -*-
"""
Created on Tue Apr 4 00:35:49 2017

@author: Administrator
"""

import re
import requests

def getHtml(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def parseHtml(uinfolist,html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
uinfolist.append([price,title])
except:
print("")


def printHtml(uinfolist):
ptlt = '{:10}\t{:10}\t{:15}'
print(ptlt.format("序号","价格","商品名称"))
count = 0
for g in uinfolist:
count = count + 1
print(ptlt.format(count,g[0],g[1]))

def main():
print('----------------------')
goods = '书包'
start_url = "http://s.taobao.com/search?="+goods
depth = 2
ulist = []
for g in range(depth):
try:
url = start_url + '&q=' + str (44 * g)
m = getHtml(url)
parseHtml(ulist,m)
except:
continue
printHtml(ulist)

main()
-----

----------------------
序号 价格 商品名称
1 99.00 【订金】斯柯达 Yeti 2016款 2年0利率 整车订金
2 99.00 【订金】斯柯达 全新晶锐车享定制版 2年0利率 整车订金
3 39.00 德国美耐特®游标卡尺0-150mm-200mm-300mm卡尺高精度非不锈钢包邮
4 27.65 春秋新男女宝宝鞋婴儿软底防滑学步鞋休闲鞋0-1岁运动鞋幼儿鞋子
5 16.80 正品秒杀塑料电子数显0-100150mm迷你小卡尺文玩珠宝测量游标卡尺
6 98.00 广陆量具0-150mm电子数显卡尺 原点不锈钢游标卡尺高精度测量工具
7 38.00 春季男女宝宝鞋子0-1岁学步鞋软底婴儿鞋新生幼儿单鞋真皮羊皮
8 55.00 锦丰五金 电子数显卡尺 游标卡尺不锈钢0-150-200-300mm
9 28.00 0-6-12个月春秋婴儿鞋子新生幼儿不掉鞋男女宝宝鞋袜软底学步鞋
10 29.90 宝宝学步鞋春夏季婴儿鞋子软底防滑男童女童0-1岁步前鞋幼儿布鞋
11 49.00 婴儿鞋子0-6-12个月男女宝宝学步鞋春秋1-3岁新生儿软底步前布鞋
12 42.00 0-6-12个月3学步鞋7女宝宝1岁5春秋冬9婴儿鞋子8软底春鞋春季棉鞋
13 69.50 卡茨格儿学步鞋女宝宝 凉鞋男婴儿凉鞋包头0-1-2岁软底防滑幼儿鞋
14 89.00 泰兰尼斯婴儿学步鞋软底宝宝叫叫鞋卡通幼儿不掉鞋子0-1-3岁春秋
15 68.00 卡特兔母婴旗舰店婴儿鞋子0-6个月软底防滑新生儿男女宝宝学前鞋
16 27.00 婴儿步前鞋春秋新款宝宝室内地板鞋0-2家居婴儿鞋防滑软底学步鞋
17 36.00 宝宝鞋子1-3岁鞋男软底婴儿鞋布鞋春秋学步鞋2岁女宝宝0-1叫叫鞋
18 22.00 运动款0-12个月婴儿鞋软底宝宝学步鞋格子0-1岁男女婴幼鞋子
19 19.90 2017学步鞋幼儿软底女宝宝鞋0-1-3岁男童鞋单鞋网面鞋子2婴儿春款
20 59.00 2016秋季新款宝宝学步鞋女0-6岁软底小白鞋时尚韩版男童婴儿单鞋
21 45.00 2017春0-1岁真皮婴儿单鞋学步鞋 2岁女宝宝幼儿公主单鞋软底鞋子
22 19.90 婴儿鞋子0-1-2岁女宝宝单鞋2017春季新款软底学步鞋女童公主皮鞋
23 39.00 春秋款女宝宝防滑公主鞋0-3岁婴儿软底学步鞋幼儿礼服鞋儿童单鞋
24 39.50 天天特价春季宝宝鞋学步鞋婴儿鞋软底0-1岁3小白鞋男女童运动单鞋
25 28.80 春秋冬季女宝宝学步布鞋单鞋0-1周岁男婴儿春鞋6软底小鞋子12个月
26 28.80 3四45-6七7八8九9-12个月男婴儿春秋装鞋子0-1岁女宝宝软底不掉鞋
27 29.00 婴儿秋冬季纯手工毛线宝宝软底鞋加绒加厚前步前鞋0-3-6-9-12个月
28 21.77 0-6-12个月学步鞋春秋新生幼儿男女1岁宝宝鞋袜单鞋婴儿鞋子软底
29 39.80 叮当小猪2017春季新款童鞋真皮儿童单鞋0-1-2-3岁男女宝宝学步鞋
30 57.82 0-1岁半女婴儿鞋子软底防掉学步鞋男宝宝9春秋款透气7九8十个月11
31 26.90 婴儿鞋子软底 学步鞋0-1岁宝宝鞋子男女宝春秋透气防脱布鞋薄
32 29.90 0-1岁新生婴幼儿软底鞋 男女宝宝魔术贴时尚运动学步鞋
33 149.00 玛乔宝宝机能鞋男童软底防滑婴儿学步鞋女童凉鞋0-1-3岁1612
34 27.09 皮鞋小童单鞋软底鞋女童学步女宝婴幼鞋子公主春季0-1-2-3岁儿
35 45.00 2017春款宝宝鞋真皮学步鞋0-1-2-3岁男女婴儿鞋子软底单鞋儿童鞋
36 91.00 0-1-2-3岁小女孩鞋单鞋春秋季 一周岁半女宝宝软底公主皮鞋学步鞋
37 4.00 stc89c52rc 40i lqfp lqfp44 89c52 lqfp44g
38 19.98 乐呵呵红米note2电池1S正品2A手机note小米2S原装BM20 44 42 45
39 239.00 【天猫超市】日本进口 花王妙而舒纸尿裤XL44片2包装通用型尿不湿
40 28.00 山地自行车44mm直管培林碗组44/56 42/52 椎管50.6小锥管轴承碗组
41 50.00 多省包邮大号麻将牌 中大号40 42 44家用麻将 手搓麻将 四川麻将
42 25.00 MEROCA 超轻轴承 培林碗组 山地自行车车头 44mm内置 直管碗组
43 99.80 家用特一级中大号高档手搓麻将牌送麻将布 无瑕疵38 40 42 44MM
44 84.98 正品38--44MM晶玉 玉石色耐磨中号大号家用手搓麻将牌送麻将桌布
45 89.00 正品38-44MM卡通竹丝双层大号加厚家用手搓麻将牌 送麻将桌布
46 35.00 华硕X44H K42D X43S A43S X42J X84H A42JC K42J笔记本键盘A83S
47 2.40 贴片 全新原装 STC89C52RC-40I-LQFP44 串口编程(程序下载)单片机
48 40.00 多省包邮大号麻将牌 中大号40 42 44家用麻将 手搓麻将 四川麻将
49 105.00 彩色玉石麻将40中 42大号 44高档家用麻将牌 手搓麻将 无瑕疵包邮
50 68.20 棋牌室全自动四口机专用40麻将机麻将牌中号42正磁38mm44大号4648
51 69.30 捷安特ATX770 777 XTC800 820小锥管转换直管44-50.6mm双培林碗组
52 40.00 景晔44mm直管内置隐藏式双培林轴承碗组山地车自行车腕组28.6前叉
53 16.00 shimano浩盟中空牙盘修补盘片22T 32T 44T牙盘修补齿片 盘片
54 95.00 包邮全自动四口麻将机专用机用麻将牌正磁正品40mm42mm44大号46mm
55 10.90 护盘 牙盘罩山地公路自行车万能大齿盘保护罩42/44齿链罩牙盘护罩
56 6.40 Risym STC12C5A60S2-35I-LQFP44G 12C5A60S2 单片机
57 125.00 全国包邮 送桌布筹码 特一级家用中大号手打麻将38-44MM正品麻将
58 3.80 Risym STC89C52 STC89C52RC-40I-LQFP44G 单片机LQFP44 工业级
59 19.80 死飞牙盘死飞自行车单车44T铁牙盘齿盘700C死飞轮盘含左右曲柄
60 60.00 四口机专用机用自动麻将牌正磁一级40mm42mm一级品46大号麻将44号
61 55.00 ATX770d培林XTC碗组750轴承44-50.6锥管758转777直管790腕组44-56
62 8.00 步进电机驱动板 A3967 EasyDriver Stepper Motor Driver V44
63 38.00 包邮 一级家用麻将牌 特大号手搓108张四川麻将 40 42 44中号
64 11.20 ATMEGA32U4-AU QFP44 全新原装担保 进口现货 单片机 可直接拍下
65 93.50 SHIMANO喜玛诺ACERA FC-M391牙盘 9速27速山地车方孔M390牙盘 44T
66 18.80 死飞牙盘死飞自行车单车44T铁牙盘齿盘700C死飞轮盘含左右曲柄
67 89.00 家用手搓仿玉石40 42 44MM彩色高档麻将牌 中号 大号麻将送桌布垫
68 65.00 全自动四口麻将机专用麻将牌 家用麻将牌中号 40 42mm44 46可手搓
69 3.78 单片机 AT89S52-24AU AT89S52 TQFP44 原装正品现货
70 80.00 原装V3正品 TL866A TL866CS通用编程器专用TSOP48-SOP44适配器座
71 8988.00 E5 2696V4正式版 22/44 2.2G满载2.8G
72 40.00 17款SWTXO直管44mm内置隐藏式培林轴承碗组死飞碗组山地自行车
>>>

 

 

转载于:https://www.cnblogs.com/wanghui626/p/6661832.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值