分析网页内容
原网址:http://www.dianping.com/shop/l5UkhABsCwYbP4tN/review_all
大家在爬取大众点评的时候,文字个别部分是加密的,如图:
所显示的只有span标签和class 并没有信息,这种信息加密,一般多少是通过css进行处理的,
我们 审查元素 中随便点击一个span代码,右边出现了svgmtsi[class^=“rsk”] ,有个背景图链接如图:
链接:https://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/b98c28f44653bd7191d9a03786178480.svg
打开看一下:
看图似乎所有加密的中文字体,都能在这里找到,那这个svg链接是哪里获取到的。前面说过这种加密字体是css方式的,我们在网站源代码里找一下,https://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/8ded1f054a1387a347e0102646711d6b.css
打开后,能在里面直接找到上面的svg链接,说明这个就是正确的css路径了。
那现在我们打开 css链接,如图:
内容里大概都是.udyoma{background:-168.0px -166.0px;} 这样的模式出现的,我们随便找一个span class看看有没在这里出现过。
rsk9oe 加密意思是 “我 ”, 在css中 找到了 位置 .rsk9oe{background:-126.0px -3094.0px;}
这里的 background 又和上面提到的 svg中 有什么关系那?
我们打开svg看一下源代码中,"我"在什么位置,这里的 #77 应该是源码中的
这里只是简单的写一下解密的思路,,希望对你能起到帮助
网页信息是经常变化的,所以还请根据自己当时访问的网页信息进行解码,,,