12/8周二
感觉我可以写一个pysonar用法的博客了 虽然不懂原理
今天的任务是
在java里改一下
还是没搞懂 java的命名机制
但我发现他只会把包里面的命名
html的命名 现在他的命名是用.py文件
改完之后 用python把他的格式提取
※给哈深的老师邮过去
感觉这一周莫名的进展缓慢
妈的 加速啊
上周二晚上 不就是我通宵的时候 而我现在还在 这里 啊啊啊啊
四
2021.9入学 2024.9
2023.1开始面试准备实习 准备好2023.6最终实习
我的秋招是2
设计模式 b站尚硅谷
计算机基础 看书 图解TCP/IP和图解HTTP
并发编程 并发编程的艺术
数据库 高性能数据库、MySQL技术内幕等
框架,spring、SpringMVC、mybatis、SpringBoot、redis,尚硅谷的
不只会调用api,了解其原理实现,这一块的话,我觉得肯定是学越多越好,比如ssm、消息中间件,nosql数据库,微服务框架,分布式等
只要写在简历上了,就要了解原理,不然面试就是炮灰玩家
12.9
1
getPath()得到的文件构造时参数中给出的路径。
. getAbsolutePath()返回的是文件的绝地路径。
getCanonicalPath()也是返回文件的绝对路径,但会去除[…]这样的符号,即返回的是标准的绝地路径。
2 substring()函数应用
String str = “Hello World!”;
//截取从下标为6(包括6)到字符串结束
System.out.println(str.substring(6)); //World!
//截取从下标为0(包括0)到下标为5(不包括5)
System.out.println(str.substring(0, 5)); //Hello
3 java的版本不对 打开 project structure 和settings设置
4运行pysonar的命令
打开虚拟机
cd /usr/java/pysonar
进入到打包好的jar目录下
java -Xms512M -Xmx512M -jar pysonar-2.1.2.jar /usr/lib/python2.7 ./html
运行他 在系统启动时设置JVM内存大小为512m 小了会heap space内存溢出
5
83 def <a name=’.usr.lib.python2%207.site-packages._markerlib.markers.parse_marker’, xid =’.usr.lib.python2%207.site-packages._markerlib.markers.parse_marker’, title=’? -> None’>
爬虫 提取 html
name xid变量名
title为变量类型
12.11
1
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x9d in position 2774:
GBK编码专门用来解决中文编码的,不论中英文都是双字节的。
UTF-8 编码是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码,且包含全世界所有国家需要用到的字符。
解决:打开文件的时候 注明utf8
FILE_OBJECT= open(‘order.log’,‘r’, encoding=‘UTF-8’)
2python的多行注释使用
"""
ssss
"""
'''
sss
'''
3
12.12
<a title="None"
class="active"
href="#.usr.lib.python2%207.site-packages.augeas.Augeas.__handle" xid=".usr.lib.python2%207.site-packages.augeas.Augeas.__handle" ,="">__handle</a>
#! -*-coding: utf-8 -*-
import os
from lxml import etree
file_name= 'D:\\BaiduYunDownload\\pysonar2-master\\pysonar2-master\\html\\site-packages\\augeas.py.html'# 文件夹目录
re = open(file_name)
page = re.read()
#spider = etree.HTML(page.lower().decode('utf-8'))
spider = etree.HTML(page)
titles = spider.xpath("//a/@title")
xids = spider.xpath("//a/@xid")
print(titles)
print(xids)
from bs4 import BeautifulSoup
f = open('D:\\BaiduYunDownload\\pysonar2-master\\pysonar2-master\\html\\site-packages\\augeas.py.html')
html = f.read()
f.close()
soup = BeautifulSoup(html,'html.parser')
result_1 = soup.find_all(name='span',attrs={'class':'lineno'})
t=0
for r in result_1:
print(r.text)
t=t+1
# print(result_1)
m=0
result_2 = soup.find_all(name='a')
for r in result_2:
m = m + 1
try:
print(r.attrs['href'])
except:
pass
print(t)
print(m)
实现了变量名和类型的提取 但是想改成 行数的提取
放在ast里
用beautiful soap实现
明天的任务 弄清 ast是如何作用的 输出是什么形式
把beautiful soap的兄弟标签提取 实现
即 提取 lineno 行数 title变量 xid变量名 等