对于一些表示类别的变量(也就是 categorical variable),我们不应该分配数字,这样是没有意义的。相反,我们应当使用独热编码。(不知道还有哪些更合理的方式)
直接上例子:
>>> import statsmodels.api as sm
>>> import pandas as pd
>>> import numpy as np
>>> np.random.seed(444)
>>> data = {
... 'industry': ['mining',
对于一些表示类别的变量(也就是 categorical variable),我们不应该分配数字,这样是没有意义的。相反,我们应当使用独热编码。(不知道还有哪些更合理的方式)
直接上例子:
>>> import statsmodels.api as sm
>>> import pandas as pd
>>> import numpy as np
>>> np.random.seed(444)
>>> data = {
... 'industry': ['mining',